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内 容 简 介 


自然 语言 处 理 (NLP) 是 计算 机 科学 、 人 工 智 能 、 语 言 学 关注 计算 机 和 人 类 (自然) 语言 之 间 的 相互 作 
用 的 领域 。 自 然 语言 处 理 是 机 器 学 习 的 应 用 之 一 ， 用 于 分 析 、 理 解 和 生成 自然 语言 ， 它 与 人 机 交互 有 关 ， 最 
终 实现 人 与 计算 机 之 间 更 好 的 交流 。 

本 书 分 为 12 章 ，, 内容 包 括 自 然 语 言 处 理 基础 、 深 度 学 习 基 础 、TensorFlow、 词 嵌入 (Word Embedding) 、 
卷 积 神经 网 络 (CNN) 与 句子 分 类 、 循 环 神经 网 络 (RNN) 、 长 短期 记忆 (LSTM) 、 利 用 LSTM 实现 图 像 
字幕 自动 生成 、 情 感 分 析 、 机 器 翻译 及 智能 问答 系统 。 

本 书 适合 TensorFlow 自然 语言 处 理 技 术 的 初学 者 、NLP 应 用 开发 人 员 、NLP 研究 人 员 ， 也 适合 高 等 院 校 
和 培训 学 校 相关 专业 的 师 生 教学 参考 。 
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2018 年 ， 其 实 是 目 然 语言 处 理 领域 收获 颇 丰 的 一 年 ， 尤 其 是 以 Google 公司 在 2018 年 11 H £1 
发 布 的 BERT 模型 最 为 世人 所 瞩目 , 可 以 说 是 最 近 AI 研究 领域 最 为 火爆 的 历史 性 突破 。 最 近 几 年 ， 
无 论 从 媒体 报道 还 是 切身 感受 , 我 们 都 看 到 人 工 智 能 目前 的 发 展 势头 非常 迅猛 。 如 果 我 们 简单 回顾 
一 下 人 工 智 能 发 展 历程 ， 不 难 发 现 其 轨迹 有 三 个 发 展 阶段 : 第 一 个 阶段 是 计算 智能 阶段 ， 其 典型 表 
现在 于 计算 机 和 人 类 相 比 是 能 存 会 算 ， 其 超大 存储 量 、 超 高 计算 速度 方面 均 可 完胜 我 们 人 类 :; 第 二 
个 阶段 是 感知 智能 阶段 ， 有 具体 表现 在 以 语音 识别 和 图 像 识别 技术 为 代表 的 迅 狐 发 展 , 如 综艺 电视 节 
目 中 的 “机 智 过 人 ”“ 最 强大 脑 ” 就 是 其 很 好 的 呈现 形式 ; 第 三 个 阶段 是 认 知 智能 阶段 ， 这 个 阶段 
需要 机 器 能 够 思考 并 具有 情感 。 正 因 为 人 工 智 能 与 我 们 日 常生 活 的 联系 越 来 越 紧 密 , 且 目 然 语 言 处 
理 技 术 是 推动 机 器 实现 认 知 的 关键 性 研究 领域 ,所 以 我 们 有 必要 对 目 然 语言 处 理应 用 进行 深入 探索 。 
本 书 将 利用 目前 流行 的 Google 技术 框架 (TensorFlow) 来 实现 自然 语言 处 理 方 面 的 应 用 。 

由 于 我 们 生活 的 方方面面 被 赋予 了 越 来 越 多 的 数字 化 内 容 , 因此 相应 的 数据 量 也 在 呈 指 数 级 增 
长 ， 并 且 大 多 数 数据 是 与 语言 相关 的 数据 ， 如 电子 邮件 、 社 交 媒 体 帖 子 、 电 话 和 网 络 文章 ， 目 然 语 
言 处 理 CNaturalLanguageProcessing, NLP) 能 够 有 效 地 利用 这 些 数 据 帮助 人 们 完成 日 常 业 务工 作 。 
NLP 已 经 彻底 改变 了 我 们 使 用 数据 改善 业务 和 生活 的 方式 ， 并 将 在 我 们 未 来 的 日 常生 活 中 发 挥 更 
大 的 作用 。 

NLP 最 普遍 的 使 用 案例 之 一 是 虚拟 助手 (Virtual Assistants, VA), wA EMEF, Apple 的 
Siri, KHF (Google Assistant) 和 亚马逊 Alexa。 当 我 向 VA 询问 “附近 最 便宜 的 火锅 ”时 〈 笔 
者 利用 手机 上 百度 地 图 小 度 时 ， 它 会 把 附近 最 便宜 的 火锅 店 排 在 第 一 位 )， 就 会 触发 一 系列 复杂 的 
NLP 任务 。 首 先 VA 需要 了 解 (解析 ) 我 的 请 求 (了解 它 需 要 检索 火锅 的 价格 ， 而 不 是 停车 位 计时 
的 价格 )，VA 做 出 的 决定 是 “什么 是 便宜 的 ? ” 然后 VA 需要 对 附近 火锅 的 价格 进行 排名 (也 有 
可 能 基于 我 过 去 吃 过 的 火锅 店 ); 最 后 VA 抓 取 相关 数据 获取 附近 火锅 的 价格 ， 并 通过 分 析 每 家 火 
锅 店 的 价格 和 评论 对 它们 进行 排名 。 其 实 , 我 们 在 几 秒 钟 内 看 到 的 结果 是 执行 一 系列 非常 复杂 NLP 
任务 的 结果 。 

下 是 NLP 在 我 们 日 常生 活 中 呈现 出 越 来 越 多 的 便利 性 , 笔者 才 更 想 对 NLP 背后 的 模型 原理 和 
具体 应 用 进行 深入 的 探讨 ， 以 便 我 们 对 NLP 有 更 多 的 认 知 。 另 外 ， 笔 者 查看 了 近 些 年 来 的 相关 文 
献 ， 发 现 单 独 讲解 NLP 方面 的 理论 文献 国内 外 都 有 ， 单 独 撰写 NLP 任务 实现 的 技术 工具 (如 
TensorFlow) 的 图 书 也 很 多 ， 而 将 二 者 结合 起 来 的 图 书 ， 目 前 在 国内 还 没有 发 现 〈 也 许 有 ， 只 是 笔 
者 没有 发 现 而 已 )。 于 是 ，2018 年 4 月， 笔者 就 想 对 关于 利用 TensorFlow 技术 框架 来 实现 NLP f£ 
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务 应 用 方面 进行 成 体系 地 探索 ， 以 便 对 今后 的 工作 有 所 积累 。 本 书 在 创作 过 程 中 参考 了 《Natural 
Language Processing with TensorFlow) (Thushan Ganegedara xb) 中 的 一 些 内 容 ， 在 此 向 Thushan 
Ganegedara 表达 个 人 的 敬意 ! 

通过 阅读 本 书 ， 你 将 学 会 如 何 利 用 深度 学 习 来 实现 许多 有 意义 的 NLP 任务 。 对 于 本 书 中 涉及 
的 NLP 任务 , 我 们 都 有 有 具体 的 代码 实现 ( 含 实 现 过 程 ), 使 用 的 技术 框架 为 TensorFlow (1.8 版 本 )， 
编程 语言 为 Python (3.6 版 本 )。 


本 书 主要 内 容 


第 1 章 上 自然 语言 处 理 基 础 。 首 先 介 绍 上 自然 语言 处 理 的 含义 及 NLP 中 的 一 些 常 见 子 任务 ; 然 
后 讲述 NLP 的 发 展 历程 : 偏 理 论 的 理性 主义 、 偏 实践 应 用 的 经 验 主 义 和 深 度 学 习 阶 段 ; 接着 对 NLP 
任务 中 深度 学 习 的 局 限 性 进行 了 大 致 分 析 ; 最 后 ， 我 们 对 于 NLP 的 应 用 场景 和 发 展 前 景 做 了 简要 
阐述 。 

第 2 章 深度 学 习 基 础 。 首先 介绍 深度 学 习 的 概念 和 演变 过 程 , 同时 介绍 了 深度 学 习 的 基础 模 

型 一 一 神经 元 模型 ， 并 对 单 层 神 经 网 络 和 多 层 神 经 网 络 模型 (深度 学 习 ) 的 结构 和 原理 进行 了 深度 
解读 ;然后 介绍 Encoder-Decoder 网 络 和 深度 学 习 中 最 常见 的 优化 算法 一 一 随机 梯度 下 降 ;， 最 后 介 
绍 反 回 传播 算法 (BP 算法 )。 

第 3 章 TensorFlow。 首 先 介绍 TensorFlow 的 产生 、 主 要 特征 和 相关 安装 等 基础 准备 内 容 ， 
同时 介绍 了 在 执行 TensorFlow 程序 时 需要 构建 计算 图 及 其 构成 元 素 ， 并 详细 解读 了 TensorFlow 的 
架构 和 工作 原理 ， 还 给 出 了 一 个 示例 来 加 深 理解 ; 然后 从 TensorFlow 客户 痛 的 角度 通过 代码 逐 层 
剖析 TensorFlow 的 内 部 运行 情况 ， 以 便 让 我 们 对 TensorFlow 的 内 部 运行 机 制 、 各 个 基础 组 件 之 间 
的 关联 等 有 深入 的 了 解 ， 最 后 介绍 变量 作用 域 机 制 并 实现 一 个 完整 的 神经 网 络 示例 。 

BAT 词 庶 入 。 首 先 介绍 分 布 式 表示 , 对 其 含义 、 类 型 及 简要 特征 有 一 个 直观 的 认识 ; 其 次 ， 
我 们 重点 对 CBOW 模型 、Skip-gram 模型 及 GloVe 模型 的 工作 原理 和 内 部 架构 进行 深度 解析 ; 最 
后 利用 前 面 的 模型 ， 通 过 TensorFlow 实现 一 个 文档 分 类 任务 。 

BSE ” 卷 积 神经 网 络 (CNN) 与 句子 分 类 。 首 先 介绍 CNN 的 历史 演变 过 程 ， 并 对 其 5 个 层 
级 结构 (输入 层 、 卷 积 运 算 层 、 激 励 层 、 池 化 层 、 全 连接 层 ) 和 4 个 基本 运算 单元 〈 卷 积 运算 、 池 
化 运算 、 全 连接 运算 和 识别 运算 ) 进行 了 介绍 ; 然后 介绍 几 种 常见 的 经 典 卷 积 神经 网 络 : AlexNet、 
VGGNet, Google Inception Net 和 ResNet， 并 逐一 从 模型 思想 、 结 构 、 特 性 亮点 等 方面 进行 详细 解 
iE; 最 后 为 了 将 上 述 解析 的 模型 思想 真正 落实 到 代码 层面 上 上， 我们 给 出 两 个 应 用 案例 : 利用 CNN 
对 MNIST 数据 集 进行 图 片 分 类 和 利用 CNN 对 句子 进行 分 类 。 

第 6 章 循环 神经 网 络 (RNN)。 首 先 通 过 计算 图 及 其 展开 解读 了 循环 的 任何 图 数 本 质 上 可 以 
认为 是 一 种 循环 神经 网 络 的 说 法 ; 然后 介绍 时 间 的 反 回 传播 算法 (BPTT)， 我 们 将 学 习 反 回 传 播 的 
工作 原理 、 为 什么 不 能 对 RNN 使 用 标准 反 回 传播 、 如 何 使 用 BPTT 对 数据 进行 RNN 训练 、 截 断 
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BPTT 和 BPPTT 的 局 限 性 等 ， 并 解读 其 局 限 性 中 的 常见 问题 及 对 应 的 解决 方法 ; 最 后 我 们 将 看 到 
一 个 RNN 的 应 用 一 一 文本 生成 ,并 研究 了 一 种 能 够 捕获 更 长 记忆 的 RNN 变 体 ( 被 称 为 RNN-CF )， 
还 给 出 了 其 在 实例 中 的 应 用 。 

第 7 章 长 短期 记忆 网 络 (LSTM)。 首 先 介 绍 LSTM 及 其 高 级 架构 ， 并 深入 研究 LSTM 中 发 
生 的 详细 计算 , 结合 一 个 例子 讨论 了 该 计算 的 过 程 ; 然后 介绍 了 几 个 可 以 提高 LSTM 性 能 的 扩展 ， 
即 贪心 采样 (一 种 非常 简单 的 技术 )、 集 束 搜索 (一 种 更 复杂 的 搜索 技术 ) 及 BiLSTM 模型 等 ， 最 
后 介绍 了 标准 LSTM 的 两 种 变 体 : ILEA GRU. 

第 8 章 利用 LSTM 自动 生成 文本 。 首 先 广泛 地 评估 了 LSTM 在 文本 生成 任务 中 的 表现 ， 然 
后 定性 和 定量 地 测量 LSTMS 生成 的 文本 有 多 好 ， 并 对 LSTM. i LALXEPER LSTM 和 GRU 进 
行 比较 ; 最 后 如 何 将 词 戏 入 引入 模型 中 ， 以 改进 LSTM 生成 的 文本 。 

第 9 章 利用 LSTM 实现 图 像 字幕 自动 生成 。 首 先 回 顾 了 图 像 字幕 的 主要 发 展 及 其 对 研究 和 
行业 部 署 的 影响 ; 其 次 详细 介绍 了 基于 深度 学 习 的 图 像 字幕 自动 生成 的 两 大 框架 ; 最 后 对 图 像 字幕 
的 自动 生成 任务 进行 了 详解 。 

第 10 章 ”情感 分 析 。 首 先 介 绍 情感 分 析 的 应 用 、 情 感 问题 的 界定 及 情感 文档 的 分 类 ， 同 时 对 
句子 观点 的 主观 性 、 基 于 Aspect 的 情感 分 析 、 情 感 词典 的 生成 、 比 较 观 点 分 析 及 观点 的 检索 做 了 
介绍 ;然后 重点 阐述 了 垃圾 评论 的 各 种 情况 ， 最 后 利用 TensorFlow 对 于 酒店 评论 样本 数据 进行 了 
情感 分 析 建 模 比 较 ， 并 得 出 相关 结论 。 

第 11 章 机 器 翻译 。 首 先 对 基于 规则 的 机 器 翻译 、 统 计 机 器 翻译 等 传统 的 机 器 翻译 情况 进行 
了 详细 解释 , 并 对 基于 神经 网 络 的 神经 网 络 机 器 翻译 模型 的 架构 和 工作 机 制 进行 了 深度 剖析 , 同时 
对 2018 年 11 月份 发 布 的 具有 重大 突破 性 的 BERT 模型 进行 了 分 析 ; 然后 介绍 如 何 实现 一 个 NMT 
系统 ; 最 后 讲解 如 何 改进 标准 NMT 系统 。 

第 12 章 智能 问答 系统 。 本 章 简 要 介绍 了 基于 深度 学 习 的 问答 方法 ， 特 别 是 对 知识 库 和 机 器 
理解 的 问答 。 深 度 学 习 的 优点 是 可 以 将 所 有 文本 跨度 (包括 文档 、 问 题 和 潜在 答案 ) FER In] CR 
入 ， 然 而 基于 深度 学 习 的 QA 模型 存在 许多 挑战 。 例 如 ， 现 有 的 神经 网 络 (RNN 和 CNN) 仍然 不 
能 精确 地 捕获 给 定 问 题 的 语义 含义 , 特别 是 对 于 文档 , 主题 或 逻辑 结构 不 能 通过 神经 网 络 容 易 地 建 
Bi, 并且 在 知识 库 中 内 入 项 目 仍然 没有 有 效 的 方法 ,以 及 QA 中 的 推理 过 程 很 难 通过 向 量 之 间 的 简 
单数 值 运算 来 建 模 。 这 些 问题 是 质量 保证 任务 面临 的 主要 挑战 ， 未 来 应 引起 更 多 的 关注 。 


代码 下 载 与 技术 支持 


本 书 示例 代码 下 载 地 址 请 扫 摘 下 面 的 二 维 码 获得 .如 果 发 现 书 中 存在 问题 或 对 本 书 有 什么 建议 ， 
请 联系 电子 邮箱 280751474@qq.com. 
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目 然 培 言 处 理 基 础 


自然 语言 处 理 (Natural Language Processing, NLP) 是 一 个 路 学 科 领 域 ， 它 结合 了 计算 科学 、 
语言 学 、 认 知 科学 和 人 工 智能 , 主要 研究 能 够 让 计算 机 实现 与 人 类 语言 有 关 的 各 类 任务 的 各 种 理论 
和 方法 ， 特 别 是 如 何 对 计算 机 进行 编程 以 处 理 和 分 析 大 量 上 自然 语言 数据 〈 非 结构 化 的 数据 ) 。 从 科 
学 的 角度 来 看 ，NLP 上 旨 在 对 人 类 语言 理解 和 产生 的 认 知 机 制 进 行 建 模 。 从 工程 角度 来 看 ，NLP X 
注 如 何 开 发 新 疾 的 实际 应 用 程序 以 促进 计算 机 与 人 类 语言 之 间 的 交互 。 在 上 自然 语言 处 理 中 , £675 38 
到 的 挑战 包括 语音 识别 、 口 语 理解 、 对 话 系统 、 词 汇 分 析 、 句 法 解析 、 机 器 翻译 、 知 识 图 谱 、 信 息 
检索 、 问 题 问 答 、 情 感 分 析 、 社 交 计 算 、 上 自然 语言 生成 和 上 自然 语言 摘要 等 。 当 然 ， 目 然 语言 处 理工 
作 也 是 计算 机 科学 中 极其 困难 的 工作 任务 。 语 言 本 号 存在 着 各 种 各 样 的 问题 ， 亦 因 语 言 而 异 。 

幸运 的 是 ， 最 近 几 年 深度 学 习 领 域 获 得 快速 发 展 ,使 得 深度 学 习 算 法 在 诸如 图 像 分 类 、 语 音 识 
别 、 文 本 生成 、 机 器 翻译 等 诸多 和 帘 有 很 强 挑战 性 的 工作 任务 中 表现 优异 ， 加 速 了 深度 学 习 与 NLP 
各 工作 任务 的 深度 融合 ,从 而 使 得 自然 语言 处 理 领 域 焕 发 出 新 的 活力 。 而 在 深度 学 习 被 广泛 应 用 的 
过 程 中 ， 出 现 了 多 种 技术 框架 ， 其 中 TensorFlow 是 目前 最 直观 、 最 有 效 的 深度 学 习 框 架 之 一 。 本 
书 重 点 探讨 如 何 利用 TensorFlow 深度 学 习 框 架 去 实现 NLP 的 各 种 任务 ,例如 句子 分 类 、 文 档 分 类 、 
文本 生成 、 图 像 字 幕 目 动 生成 、 机 器 翻译 、 智 能 问答 等 。 

在 本 章 中 ， 我 们 将 要 对 于 自然 语言 处 理 基 础 有 一 个 初步 了 解 ， 并 对 NLP 的 主要 工作 任务 做 一 
个 划分 ; 然后 我 们 将 对 NLP 领域 的 三 个 发 展 浪潮 做 详细 解读 ， 并 对 当前 NLP 领域 中 深度 学 习 的 局 
限 性 进行 剖析 ; 最 后 ， 我 们 还 会 对 于 NLP 的 应 用 场景 和 应 用 前 景 做 个 简要 阐述 。 
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1.4 认识 目 然 语言 处 理 


根据 《2017 微 信 数据 报告 》 显 示 ， 每 天 会 有 380 亿 条 信息 从 微 信 上 发 出 ， 如 果 按 照 每 条 信息 
都 是 文字 “你 吃饭 了 么 ”计算 ， 通 过 微 信 发 送 的 信息 每 天 的 数据 量 在 350GB 以 上 一 个 汉字 占 2 
字 节 ，1024 字 节 =1KB) 。 而 实际 的 数据 量 会 更 多 ,因为 这 些 信息 会 有 不 少 语音 、 smt. E. 
小 视频 等 。 其实, 在 实际 工作 中 ,我 们 每 天 都 在 处 理 的 电子 邮件 、 各 类 报告 文档 等 同样 也 在 以 惊人 
的 速度 充斥 着 整个 网 络 环境 。2018 年 6 月 ， 据 科技 公司 Domo 预测 ， 到 2020 年 ， 世 界 上 每 人 每 
天 将 产生 超过 140GB 的 数据 ， 并 且 随 着 物 联网 的 迅猛 发 展 ， 这 个 数字 将 会 继续 扩大 。 

正 是 由 于 这 些 统计 数据 的 存在 ， 才 使 得 我 们 为 界定 NLP 提供 了 良好 的 基础 。 简 而 言 之 ，NLP 
的 目标 就 是 让 机 器 拥有 真正 理解 人 类 语言 并 以 与 人 类 相同 的 方式 处 理 它 的 能 力 。 如 今 ，NLP 的 应 
用 已 经 广泛 存在 ， 就 像 我 们 日 常生 活 中 常用 到 的 虚拟 助手 (VA) ， 常 见 的 有 百度 语音 助手 、 讯 飞 
语音 助手 、Google 智能 助理 、 微 软 的 个 人 智能 助理 小 娜 (Cortana) 、 苹 果 系 统 的 Sin 等 ， 这 些 虚 
拟 助 手 主要 是 NLP 系统 在 运行 。 比 如 ， 你 告诉 语音 助手 “请 告诉 我 附近 好 吃 的 麻辣 遂 在 哪儿 ? " 
首先 ，VA 需要 将 你 的 声音 转换 为 文本 (语音 到 文本 ) 。 接 下 来 ，VA 必须 理解 你 请 求 的 语义 〈 例 
如 , ARIETE SK iH RUSSE fx HL E RET ) 并 制定 结构 化 请 求 (例如 , R=, FRE 3-5, 
距离 <3 AE) 。 然 后 ，VA 必须 按 位 置 和 沫 看 两 个 条 件 搜 索 并 筛选 出 餐厅 ， 再 按 收 到 的 评级 对 餐 
厅 进 行 排序 。 为 了 计算 餐厅 的 整体 评级 ， 良 好 的 NLP 系统 可 以 查看 每 个 用 户 提供 的 评级 和 文本 描 
述 。 最 后 ， 用 户 到 达 和 餐厅 ，VA 还 可 以 将 各 种 菜品 组 合 的 受 欢迎 程度 进行 综合 推荐 ， 以 此 来 帮助 你 
做 出 更 好 的 选择 。 这 个 例子 表明 NLP 已 成 为 人 类 生活 中 不 可 或 缺 的 一 部 分 。 


1.2 ”上 自然 语言 处 理 方面 的 任务 


NLP 其 实 有 许多 实际 的 应 用 ， 而 一 个 好 的 NLP 系统 会 执行 多 个 任务 系统 。 比 如 ， 上 面 提 到 的 
你 要 在 当前 位 置 选择 及 辣 效 小 吃 店 的 例子 ,其实 就 是 在 执行 多 个 NLP 任务 系统 。 关 于 NLP 的 任务 ， 
主要 有 以 下 几 类 : 


e 标记 化 : 标记 化 是 将 文本 语料库 分 离 为 原子 单元 ( 例如， 单词 ) 的 任务 。 虽 然 看 似 微 不 
足 道 ， 但 是 标记 化 却 是 一 项 非常 重要 的 工作 任务 。 例 如 ， 在 日 语 中 ， 单 词 不 以 空格 或 标 
点 符号 分 隔 。 

e 词义 消 歧 ( Word-sense Disambiguation, WSD ) : 词义 消 歧 是 识别 单词 正确 含义 的 任务 。 
例如 ， 有 两 个 句子 ，“ 你 提供 的 图 真 好 看 ”和 “你 图 哈 ? ”， 其 中 “图 ”就 有 两 种 不 同 
的 含义 。 词 义 消 歧 对 于 诸如 问答 之 类 的 任务 至 关 重 要 。 

e 命名 实体 识别 (Named Entity Recognition, NER) : NER 尝试 从 给 定 的 文本 主体 或 文本 
语料库 中 提取 实体 (例如 ， 人、 位 置 和 组 织 ) 。 例 如 ， 有 一 个 句子 ，“ 林 阿姨 昨天 在 小 
KR 1] u 4 T 9p XL IR, EC AE A ATR TER yy DEE Su PT 
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4 9] Ayy t. NER 是 信息 检索 和 知识 表示 等 领域 的 一 个 重要 课题 。 

e 词性 (Part-of-Speech，PoS ) 标注 : 是 词汇 基本 的 语法 属性 ， 通 常 也 称 为 词类 ， 既 可 以 
是 名 词 、 动 词 、 形 容 词 、 副 词 、 介 词 等 基本 标签 ， 也 可 以 是 诸如 专 有 名 词 、 首 通 名 词 、 
短语 动词 等 。 词 性 标注 就 是 在 给 定 句子 中 判定 每 个 词 的 语法 范畴 ， 确 定 其 词性 并 加 以 标 
注 的 过 程 ， 是 中 文 信息 处 理 面临 的 重要 基础 性 问题 ， 主 要 可 以 分 为 基于 规则 和 基于 统计 

e 句子 /概要 分 类 : 句子 或 概要 (例如 ， 电 影评 论 ) 分 类 有 许多 用 例 ， 例 如 垃圾 邮件 检测 、 
新 闻 文 章 分 类 (诸如 政治 、 科 技 和 体育 等 ) 和 产品 评论 评级 (正面 或 负面 ) 。 这 是 通过 
训练 带 标 签 的 数据 (由 人 类 注释 的 评论 ， 带 有 积极 或 消极 的 标签 ) 来 训练 分 类 模型 实现 
的 。 

e 文本 生成 : 在 文本 生成 中 ， 学 习 模 型 (例如 ， 和 神经 网 络 ) 使 用 文本 语料库 ( 大 量 文本 文 
档 集合 ) 进行 训练 ， 预 测 随 后 的 新 文本 。 例 如 ， 文 本 生成 可 以 通过 使 用 现 有 的 小 说 故事 
文本 进行 训练 来 输出 一 个 全 新 的 小 说 故事 文本 。 当 然 ， 具 体 的 实现 过 程 会 涉及 具体 模型 
的 实施 ， 具 有 一 定 的 复杂 性 。 本 书 第 8 章 将 专门 针对 文本 生成 做 详细 解读 。 

e 问答 (QA) 系统: QA 技术 具有 很 高 的 商业 价值 ， 因 为 这 些 技术 是 聊天 机 器 人 和 VA( 例 
如 谷歌 Assistant 和 苹果 Siri ) 实现 的 基础 所 在 。 聊天 机 器 人 已 经 被 许多 公司 用 于 客户 支持 
工作 。 聊天 机 器 人 可 以 用 来 回答 和 解决 客户 直接 关心 的 问题 ， 而 不 需要 人 工 干预 。QA 涉 
及 NLP 的 许多 方面 ， 比 如 信息 检索 和 知识 图 谱 中 的 知识 表示 。 因 此 开发 QA 系统 变 得 更 
加 具有 挑战 性 。 

e 机 器 翻译 : 是 将 一 个 句子 /短语 从 源 语言 (如 汉语 ) 转换 为 目标 语言 (如 英语 ) 的 任务 。 
这 是 一 个 非常 具有 挑战 性 的 任务 ， 因 为 不 同 的 语言 具有 高 度 不 同 的 形态 结构 ， 这 意味 着 
它 不 是 一 对 一 的 转换 。 此 外 ， 语 言 之 间 的 字 对 字 关 系 可 以 是 一 对 多 、 一 对 一 、 多 对 一 或 
多 对 多 。 这 在 MT 文献 中 被 称 为 单词 对 齐 问题 .。 


为 了 开发 一 个 可 以 帮助 人 们 完成 日 常任 务 的 系统 例如 ，VA 或 聊天 机 器 人 ) ， 这 些 任务 中 的 
许多 工作 需要 放 在 一 起 执行 。 正 如 我 们 在 前 面 的 例子 中 看 到 的 那样 , “请 告诉 我 附近 好 吃 的 且 辣 溪 
在 哪儿 ? ”需要 完成 儿 个 不 同 的 NLP 任务 ， 例 如 语音 到 文本 转换 、 语 义 和 情 感 分 析 、 问 题 回答 和 
机 右 翻 译 。 在 图 1.1 P, 我们 提供 了 不 同 NLP 任务 的 层次 分 类 。 我 们 首先 有 两 大 类 任务 : 分 析 CAT 
HRAL) 和 生成 〈 生 成 新 文本 ) 任务 。 然 后 将 分 析 分 为 三 类 : 句法 〈 基 于 语言 结构 的 任务 ) 、 
语义 (基于 意义 的 任务 〉 和 语 用 (难以 解决 的 开放 问题 ， 如 图 1-1 所 示 。 

目前 ， 我 们 对 于 目 然 语 言 处 理 及 其 各 种 任务 分 类 有 了 一 定 的 了 解 ， 下 面 我 们 将 探讨 一 下 NLP 
的 起 源 、 发 展 及 现状 。 
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1-1 广义 范畴 下 的 NLP 主要 任务 分 类 
13 第 一 阶段 : 偏 理论 的 理性 主义 


NLP 研究 的 第 一 次 浪潮 持续 了 很 长 一 段 时 间 , 可 以 追溯 到 20 世纪 50 年 代 。1950 年 , 阿兰 "图 
灵 提 出 了 图 灵 测 试 来 评估 计算 机 展示 与 人 类 无 法 区 分 的 智能 行为 的 能 力 〈 图 灵 ，1950) (注意 : 本 
书 这 种 “人 名 ， 年 份 ”的 说 明 方 式 用 于 读者 必要 时 查阅 下 载 资 源 文件 ， 以 确认 参考 文献 的 出 处 ) 。 
该 测试 基于 人 和 计算 机 之 间 的 目 然 语言 对 话 ， 旨 在 产生 类 似 人 的 啊 应 。 1954 年 ，Georgetown-IBM 
实验 展示 了 第 一 个 能 够 将 60 多 个 俄语 句子 翻译 成 英语 的 机 器 翻译 系统 。 

这 些 方法 基于 这 样 一 种 信念 , 即 人 类 大 脑 中 的 语言 知识 是 通过 一 般 遗 传 而 提前 固定 下 来 的 ,这 
在 20 世纪 60 年 代 到 20 世纪 80 年 代 后 期 的 NLP 研究 中 占 主导 地 位 。 这 些 方法 被 称 为 理性 主义 方 
iX (Church, 2007) 。 理 性 主义 方法 在 NLP 中 占有 主导 地 位 ， 主 要 是 由 于 诺 姆 。 乔 姆 斯 基 关 于 先 
天 语言 结构 的 论点 得 到 广泛 接受 ， 以 及 他 对 N-gram 的 批评 (Chomsky, 1957) 。 假 设 语言 的 关键 
部 分 在 出 生 时 就 己 经 扎根 于 大 脑 , 作为 人 类 遗传 的 一 部 分 , 理性 主义 方法 会 努力 设计 人 工 制 作 的 规 
则 ， 将 相关 知识 和 推理 机 制 融 入 智能 NLP 系统 。 直 到 20 世纪 80 年 代 ， 最 著名 的 NLP 系统 是 基于 
复杂 的 手写 规则 集 的 ， 例 如 模拟 罗 格 氏 (Rogerian) 心理 治疗 师 的 ELIZA 和 将 现实 世界 的 信息 构 
造成 概念 本 体 的 MARGIE， 是 基于 复杂 的 手写 规则 集 。 

这 一 时 期 大 致 与 人 工 智能 的 早期 发 展 相 吻合 ， 人工 智 能 以 专家 知识 工程 为 特征 , 行业 专家 根据 
他 们 所 拥有 的 (非常 狭 罕 的 ) 应 用 领域 的 知识 设计 了 计算 机 程序 (Nilsson, 1982; Winston, 1993) . 
专家 们 使 用 基于 细致 的 表示 和 工程 学 知识 的 符号 逻辑 规则 来 设计 这 些 程序 .这 些 基 于 知识 的 人 工 智 
能 系统 往往 通过 检查 “大 脑 ” 或 最 重要 的 参数 ， 并 针对 每 个 具体 情况 采取 适当 行动 , 从 而 有 效 地 解 
决 特定 领域 的 问题 。 这 些 “ 大 脑 ” 参 数 由 人 类 专家 提前 确定 ， 使 “尾部 ”参数 和 案例 保持 不 变 。 由 
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于 缺乏 学 习 能 力 ， 很 难 将 其 解决 方案 推广 到 新 的 场景 和 领域 。 在 此 期 间 的 典型 方法 是 专家 系统 ， 例 
如 模拟 人 类 专家 决策 能 力 的 计算 机 系统 。 这 种 系统 则 在 通过 推理 知识 来 解决 复杂 问题 (Nilsson, 
1982) 。 第 一 个 专家 系统 创建 于 20 世纪 70 FAR, 而 后 在 20 世纪 80 年 代 兴 起 。 使 用 的 主要 “算法 ” 
是 “if-then-else” 形 式 的 推理 规则 (Jackson，1998) 。 这 些 第 一 代 人 工 智 能 系统 的 主要 优势 在 于 其 
执行 逻辑 推理 〈 有 限 的 ) 能 力 的 透明 性 和 可 解释 性 。 就 像 ELIZA 和 MARGIE 这 样 的 NLP 系统 一 
样 ， 早 期 的 专家 系统 使 用 人 工 制作 的 专家 知识 库 ， 这 些 知识 在 某 些 特定 的 问题 中 往往 是 有 效 的 ， 尽 
管 推理 机 制 不 能 处 理 实 际 应 用 中 普遍 存在 的 不 确定 性 。 

对 于 语音 识别 的 研究 和 系统 设计 ，NLP 和 人 工 智 能 面临 的 一 个 长 期 挑战 是 在 很 大 程度 上 需要 
依赖 于 专家 知识 工程 的 范式 ， 正 如 Church 和 Mercer (Church 和 Mercer, 1993) 所 分 析 的 那样 。 
在 20 世纪 70 年 代 和 80 年代 初 期 ,语音 识别 的 专家 系统 方法 非常 受 欢迎 (Reddy, 1976; Zue, 1985). 
然而 , 研究 人 员 敏 锐 地 认识 到 该 阶段 缺乏 从 数据 中 学 习 和 处 理 推理 中 不 确定 性 的 能 力 , 继而 出 现 接 
下 来 描述 的 第 二 阶段 语音 识别 、NLP 和 人 工 智能 。 


1.4 第 二 阶段 : 仿 实 践 应 用 的 经 验 主义 


该 阶段 NLP 的 特点 是 通过 数据 语料库 和 CR) 机 器 学 习 、 统 计 或 其 他 方法 来 使 用 数据 样本 
(Manning 和 Schtze, 1999)。 由 于 目 然 语言 的 大 部 分 结构 和 理论 被 数据 驱动 的 方法 所 忽视 或 抛弃 ， 
所 以 这 期 间 发 展 起 来 的 主要 方法 被 称 为 经 验 的 (或 实用 的 ) 方 法 (Church and Mercer, 1993; Church, 
2014) 。 随 着 机 器 可 读数 据 可 用 性 的 增加 和 计算 能 力 的 不 断 提 高 ， 从 1990 年 开始 ， 经 验方 法 一 直 
主导 着 NLP. 其 中 一 个 主要 的 NLP 会 议 甚 至 被 命名 为 “上 自然 语言 处 理 中 的 经 验方 法 (EMNLP) ", 
以 最 直接 地 反映 出 NLP 研究 人 员 在 该 阶段 对 经 验方 法 的 强烈 〈 积 极 ) 倾向 性 。 

与 理性 主义 方法 相反 , 经 验方 法 假设 人 类 思维 只 从 联想 、 模 式 识 别 和 概括 的 一 般 操作 着 手 。 为 
了 使 得 大 脑 更 好 地 学 习 上 自然 语言 的 详细 结构 ， 需 要 存在 丰富 的 感官 输入 才 可 以 。 自 1920 年 以 来 ， 
经 验 主义 在 人 口 学 中 普遍 存在 ， 自 1990 年 以 来 经 验 主 义 也 一 直 在 复苏 。 早 期 的 NLP 经 验方 法 侧重 
于 开发 生成 模型 ， 如 隐 马 尔 可 夫 模 型 (HMM) (Baum 和 Petrie, 1966) ~ IBM 翻译 模型 (Brown 
等 ，1993) 和 脑 部 驱动 的 解析 模型 (Collins，1997〉 从 大 型 语料库 中 发 现 语言 的 规律 性 。 自 20 tH 
纪 90 年 代 末 以 来 ， 判 别 模型 已 成 为 各 种 NLP 任务 中 实用 的 方法 。NLP 中 的 代表 性 判别 模型 和 方 
法 包括 最 大 烂 模型 (Ratnaparkhi，1997) 、 文 持 问 量 机 CVapnik, 1998) 、 条 件 随 机 场 (Lafferty 
45, 2001) 、 最 大 互信 息 和 最 小 分 类 误差 (He 等 ，2008) 和 感知 器 (Collins，2002) 。 

同样 ，NLP 中 的 经 验 主义 时 代 与 人 工 智 能 以 及 语音 识别 和 计算 机 视觉 中 的 方法 相对 应 。 这 是 
因为 有 明确 的 证 据 表 明 , 学 习 和 感知 能 力 对 于 复杂 的 人 工 智能 系统 至 关 重 要 , 但 在 前 一 波 流行 的 专 
家 系统 中 却 缺失 了 。 例如 ， 当 DARPA 开启 其 首次 自动 驾驶 大 挑战 时 ， 大 多 数 车 辆 依赖 于 基于 知识 
的 人 工 智能 范式 。 与 语音 识别 和 NLP 非常 相似 ， 自 动 驾 驶 和 计算 机 视觉 研究 人 员 立 即 意识 到 基于 
知识 范式 的 局 限 性 ， 因 为 机 器 学 习 必须 具有 不 确定 性 处 理 和 泛 化 能 力 。 

NLP 中 的 经 验 主义 和 第 二 阶段 中 的 语音 识别 是 基于 数据 密集 型 的 机 器 学 习 ， 我 们 现在 称 之 为 
“ 浅 层 ”机 器 学 习 ， 因 为 这 里 通常 会 缺少 由 多 层 或 “深层 ”数据 表示 构成 的 抽象 ， 第 三 阶段 深度 学 
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习 方 面 将 在 后 面 继续 开展 。 在 机 器 学 习 中 ， 研 究 人 员 无 须 关 注 构建 第 一 阶段 期 间 基 于 知识 的 NLP 
和 语音 系统 所 需 的 精确 度 和 正确 规则 。 他 们 关注 统计 模型 (Bishop，2006; Murphy. 2012) 或 简 
单 的 神经 网 络 (Bishop, 1995) 作为 潜在 引擎 。 然 后, 他 们 使 用 充足 的 训练 数据 自动 学 习 或 “调整 ” 
引擎 的 参数 , 以 使 它们 处 理 不 确定 性 , 并 尝试 从 一 个 场景 推广 到 男 一 个 场景 , 从 一 个 域 到 男 一 个 域 。 
用 于 机 器 学 习 的 关键 算法 和 方法 包括 EM、 贝 叶 斯 网 络 、 文 持 向 量 机 、 决 策 树 及 用 于 神经 网 络 的 反 
回 传 播 算法 。 

现在 回 过 头 来 看 ， 基 于 机 器 学 习 的 NLP、 语 音 识 别 和 其 他 人 工 智能 系统 ， 比 早期 的 基于 知识 
的 对 应 部 分 表现 更 佳 。 诸如 一 些 成 功 的 例子 , 包括 机 器 知觉 中 的 几乎 所 有 人 工 智 能 任务 一 一 语音 识 
别 (Jelinek，1998) 、 人 脸 识 别 (Viola 和 Jones, 2004) 、 视 觉 对 象 识 别 CFei-Fei 和 Perona, 2005) 、 
手写 识别 CPlamondon 和 Srihari, 2000) 和 机 器 翻译 (Och，2003) 。 

具体 来 看 ， 针 对 机 器 翻译 应 用 方面 ， 传 统 方法 还 是 以 统计 方法 主 ， 我 们 也 会 在 本 书 的 第 11 章 
对 机 器 翻译 部 分 做 详细 解读 

双语 训练 数据 中 句子 级 对 齐 的 可 用 性 使 得 不 通过 规则 而 是 直接 从 数据 中 获得 表层 翻译 成 为 可 
能 ， 代 价 是 丢弃 或 忽略 自然 语言 中 的 结构 化 信息 。 当 然 ， 在 本 阶段 的 后 续 发 展 中 ， 机 器 翻译 的 质量 
也 得 到 了 显著 提升 (Och 和 Ney, 2002; Och, 2003; Chiang. 2007; He 和 Deng, 2012) ， 但 还 
是 没有 达到 现实 世界 中 大 规模 部 署 的 水 平 (后续 深度 学 习 阶 段 将 会 继续 探讨 )。 

在 NLP 的 对 话 和 口语 理解 领域 , 这 个 经 验 主 义 时 代 也 以 数据 驱动 的 机 器 学 习 方 法 为 显著 标志 ， 
这 些 方法 非常 适合 于 定量 评价 和 有 具体 可 交付 成 果 的 要 求 。 他 们 关注 的 是 文本 和 域 的 更 广泛 但 肤浅 的 
表层 履 盖 ， 而 不 是 对 高 度 受 限 的 文本 和 域 的 详细 分 析 。 我 们 训练 数据 的 目的 ,不 是 从 对 话 系统 中 设 
计 出 有 关 语 言 理 解 和 动作 反映 方面 的 规则 ,而 是 从 数据 样本 中 自动 学 习 ( 浅 层 ) 统计 或 神经 模型 方 
面 的 参数 。 这 种 学 习 有 助 于 降低 人 工 制作 复杂 对 话 管理 器 的 设计 成 本 , 并 有 助 于 提高 整体 口语 理解 
和 对 话 系 统 中 语音 识别 错误 的 鲁 棒 性 水 平 (He 和 Deng，2013) 。 具 体 来 看 ， 对 话 系 统 中 对 话 策略 
部 分 ， 在 本 阶段 引入 了 基于 马尔 科 夫 决策 过 程 的 强化 学 习 ， 有 关 评 论 ， 可 以 参阅 Young 等 人 的 文 
章 (Young 等 ，2013) 。 在 口语 理解 方面 ， 主 要 方法 从 第 一 阶段 基于 规则 或 模板 的 方法 转移 到 生成 
模型 ， 如 隐 马 尔 科 夫 模 型 (HMMs) (Wang 等 ，2011) ， 再 到 判别 模型 ， 如 条 件 随 机 场 (Tur 和 
Deng，2011) 。 

同样 , 在 语音 识别 领域 , 从 20 世纪 80 年 代 早期 到 2010 年 左右 , 该 领域 主要 由 机 器 学 习 ( 浅 ) 
范式 主导 ， 使 用 基于 与 高 斯 混合 模型 集成 的 HMM 的 统计 生成 模型 ， 以 及 不 同 版 本 的 泛 化 方面 
(Baker 等 ，2009; Deng 和 O'Shaughnessy, 2003; Rabiner 和 Juang, 1993) 。 广 义 HMMs 的 许多 
版 本 是 基于 统计 和 神经 网 络 的 隐藏 动态 模型 (Deng, 1998; Bridle ^5, 1998; Deng fll Yu, 2007). 
前 者 采用 EM 和 扩展 卡尔 曼 滤 波 算法 来 学 习 模 型 参数 (Ma 和 Deng, 2004; Lee 等 ，2004) ; 后 者 
使 用 了 反问 传播 (Picone 等 ，1999)。 它 们 都 广泛 地 利用 了 多 个 潜在 的 表示 层 来 生成 语音 波形 ， 遵 
循 人 类 语音 感知 中 长 期 存在 的 通过 合成 进行 分 析 的 框架 。 更 重要 的 是 ， 将 这 种 “深层 ”生成 过 程 转 
化 为 端 到 端 判别 过 程 的 对 应 , 引起 了 深度 学 习 第 一 次 在 工业 上 的 成 功 (Deng 等 , 2010, 2013; Hinton 
^5, 2012) ， 形 成 了 第 三 阶段 的 语音 识别 和 NLP 的 驱动 力 ， 接 下 来 我 们 将 对 此 进行 曾 述 。 
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15 第 三 阶段 : 深度 学 习 阶 段 


虽然 在 第 二 阶段 开发 的 NLP 系统 ， 包 括 语音 识别 、 语 言 理 解 和 机 器 翻译 ， 比 第 一 阶段 开发 系 
统 的 表现 更 好 ， 具 有 更 高 的 鲁 棒 性 ， 但 它们 远 未 达到 人 类 级 别 的 水 平 ， 还 有 很 多 地 方 需要 改进 。 除 
了 少数 例外 ，NLP 的 ( 浅 ) 机 器 学 习 模 型 通 币 没有 足够 大 的 容量 来 吸收 大 量 的 训练 数据 。 此 外 ， 
涉及 的 这 些 学 习 算 法 、 方 法 和 基础 结构 不 够 强大 。 所 有 这 一 切 都 在 几 年 前 发 生 了 很 大 变化 ， 由 于 深 
层 结构 化 机 器 学 习 或 深层 学 习 的 新 范式 推动 (Bengio，2009; Deng 和 Yu, 2014; LeCun 等 , 2015; 
Goodfellow 等 ，2016) ， 引 发 了 NLP 的 第 三 波浪 潮 。 

在 传统 的 机 器 学 习 中 ， 由 于 特征 是 由 人 设计 的 ,需要 大 量 的 人 类 专业 知识 ， 显然 特征 工程 也 存 
在 一 些 瓶 贷 。 同 时 ， 相 关 的 浅 层 模型 缺乏 表示 能 力 ， 因 此 缺乏 形成 可 分 解 抽象 级 别 的 能 力 ， 这 些 抽 
象 级 别 在 形成 观察 到 的 语言 数据 时 将 自动 分 离 复 杂 的 因素 。 深 度 学 习 的 进步 是 当前 NLP 和 人 工 智 
能 抛 点 背后 的 主要 推动 力 ， 并 且 直 接 推动 了 神经 网 络 的 复兴 ， 包 括 商业 领域 的 广泛 应 用 CParloff, 
2016) 。 

进一步 讲 ， 尽 管 在 第 二 次 浪潮 期 间 开 发 的 许多 重要 的 NLP 任务 中 ， 判 别 模型 〈 浅 层 ) 取得 了 
成 功 , 但 它们 仍然 难以 通过 行业 专家 人 工 设 计 特 征 来 涵盖 语言 中 的 所 有 规则 。 除了 不 完整 性 问题 之 
外 ， 这 种 浅 层 模 型 还 面临 稀 跑 性 问题 ， 因 为 特征 通常 仅 在 训练 数据 中 出 现 一 次 , 特别 是 对 于 高 度 稀 
玖 的 高 阶 特征 。 因 此 ， 在 深度 学 习 出 现 之 前 ， 特 征 设计 已 经 成 为 统计 NLP 的 主要 障碍 之 一 。 深 度 
学 习 为 解决 我 们 的 特征 工程 问题 带 来 了 和 硕 望 , 其 观点 被 称 为 "从 头 开 始 NLP”(Collobert $, 2011), 
这 在 深度 学 习 早 期 被 认为 是 非 同 寻常 的 ,这 种 深度 学 习 方 法 利用 了 包含 多 个 隐藏 层 的 强大 神经 网 络 
来 解决 一 般 的 机 器 学 习 任 务 ， 而 无 须 特征 工程 。 与 浅 层 神 经 网 络 和 相关 的 机 器 学 习 模 型 不 同 , 深层 
神经 网 络 能 够 利用 多 层 非 线性 处 理 单元 的 级 联 来 从 数据 中 学 习 表 示 以 进行 特征 提取 。 由 于 较 高 级 别 
的 特征 源 自 于 较 低 级 别 的 特征 ， 因 此 这 些 级 别 构成 了 概念 上 的 层次 结构 。 

深度 学 习 起 源 于 人 工 神经 网 络 , 可 以 将 其 视 为 受 生 物 神经 系统 司 发 的 细胞 类 型 的 级 联 模型 。 随 
着 反 回 传播 算法 的 出 现 CRumelhart 等 ，1986) ， 从 零 开始 训 练 深度 神经 网 络 在 20 世纪 90 年 代 受 
到 了 广泛 的 关注 。 其 实在 早期 ， 由 于 没有 大 量 的 训练 数据 ， 也 没有 适当 的 设计 模式 和 学 习 方 法 , 在 
神经 网 络 训练 期 间 , 学 习 信 号 在 层 与 层 之 间 传 播 时 会 随 着 层 数 呈 指 数 级 消失 , 难以 调整 深度 神经 网 
络 的 连接 权重 值 ， 尤 其 是 循环 模式 。Hinton 等 人 最 初 殉 服 了 这 个 问题 (Hinton 5$, 20060 ， 使 用 
无 监督 的 预 训练 ， 首 先 学 习 通 常 有 用 的 特征 检测 器 ， 然 后 通过 监督 学 习 进 一 步 训 练 网 络 ， 进 而 对 标 
记 数 据 进 行 分 类 。 因 此 ， 可 以 使 用 低级 表示 来 学 习 高 级 表示 的 分 布 。 这 项 开创 性 的 工作 标志 着 神经 
网 络 的 复兴 。 此 后 各 种 网 络 架 构 被 提出 并 开发 出 来 ， 包 括 深 度 信 念 网 络 (deep belief networks) 
(Hinton 等 ，2006) 、 栈 式 自 动 编码 器 (stacked auto-encoders) (Vincent 等 ，2010) 、 深 度 玻 和 尔 
效 曼 机 (deep Boltzmann machines?) (Hinton 和 Salakhutdinov, 2012) . 深度 卷 积 神经 网 络 (Krizhevsky 
^, 2012) 、 深 度 堆 稚 网 络 (deep stacking networks?) (Deng 55, 2012) 以 及 深度 Q 网 络 (Mnih 
SF, 2015) . 2010 年 以 来 ， 深 度 学 习 能 够 发 现 高 维 数据 中 复杂 的 结构 ， 已 成 功 应 用 于 人 工 智 能 的 
各 种 实际 任务 中 ， 尤 其 是 语音 识别 (Yu 等 ，2010; Hinton 等 ，2012) 、 图 像 分 类 CKrizhevsky 等 ， 
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2012; He 等 ，2016) 和 NLP。 

语音 识别 是 NLP 的 核心 任务 之 一 ， 且 它 在 工业 NLP 实际 应 用 中 受到 深度 学 习 很 大 的 影响 ， 所 
以 我 们 这 里 对 此 进行 一 些 解 读 。 深 度 学习 在 大 规模 语音 识别 中 的 工业 应 用 在 2010 年 左右 开始 起 飞 。 
相关 工作 是 由 学 术 界 和 产业 界 合作 发 起 的 ， 最 初 的 成 果 是 在 2009 年 NIPS 语音 识别 和 相关 应 用 的 
深度 学 习 研 讨 会 上 发 布 的 。 这 次 研讨 会 的 目的 是 语音 深层 生成 模型 的 局 限 性 ， 以 及 大 计算 、 大 数据 
时 代 需 要 对 深层 神经 网 络 进行 认真 研究 的 可 能 性 。 当 时 认为 ， 使 用 基于 对 比 散 度 学 习 算 法 

(Contrastive Divergence Learning Algorithm) 的 深度 信念 网 络 生成 模型 进行 DNNs 预 处 理 ， 可 以 殉 
服 20 世纪 90 年 代 神 经 网 络 遇 到 的 主要 困难 (Dahl 4$, 2011; Mohamed 等 ，2009) 。 然 而 ， 在 微 
软 早 期 关于 这 项 的 研究 中 ， 人 们 发 现 ,没有 对 比 散 度 预 训 练 ， 而 是 使 用 大 量 的 训练 数据 ， 连 同 深层 
神经 网 络 ， 这 些 深层 神经 网 络 设计 成 具有 相应 的 大 型 、 上 下 文 相关 的 输出 层 , 并 且 经 过 精心 的 工程 
设计 ， 可 以 获得 比 当时 最 先进 的 〈 浅 ) 机 器 学 习 系 统 显著 更 低 的 识别 误差 (Yu 等 ，2010，2011; 
Dahl 等 ，2012) 。 北 美的 其 他 几 个 主要 语音 识别 研究 小 组 (Hinton 等 ，2012 F; Deng 等 ，2013 
年 ) 以 及 随后 一 些 海外 研究 小 组 很 快 就 证 实 了 这 一 发 现 。 此 外 ,还 发 现 这 两 种 类 型 系统 产生 的 识别 
错误 的 本 质 是 不 同 的 , 这 为 如 何 将 深度 学 习 集 成 到 现 有 的 由 主要 参与 者 在 语音 识别 中 部 署 的 高 效 运 
行 的 语音 解码 系统 提供 了 技术 支持 (Yu 和 Deng, 2015; Abdel-Hamid 等 ，2014; Xiong 等 ，2016; 
Saon 等 ，2017) 。 如 今 ， 应 用 于 各 种 形式 的 深层 神经 网 络 的 反 回 传播 算法 被 统一 应 用 于 所 有 当前 
最 先进 的 语音 识别 系统 (Yu 和 Deng, 2015; Amodei 等 ，2016; Saon 等 ，2017) ， 以 及 所 有 主要 
的 商业 语音 识别 系统 一 一 微软 Cortana, Xbox, Skype 翻译 、 亚 马 逊 Alexa、 谷 歌 助理 、 苹 果 Siri. 
百度 小 度 和 iFlyTek 语音 搜索 等 一 一 都 基于 深度 学 习 方 法 。 

2010 年 、2011 年 语音 识别 的 惊人 成 功 预 示 着 第 三 波 NLP 和 人 工 智 能 的 到 来 。 随 着 深度 学 习 在 
语音 识别 领域 的 成 功 ， 计 算 机 视觉 Krizhevsky 等 ，2012) 和 机 器 翻译 (Bahdanau ^$, 2015) 也 
很 快 被 类 似 的 深度 学 习 范 式 所 取代 。 特 别 是 ， 虽 然 早 在 2001 年 就 开发 了 强大 的 词汇 神经 词 散 入 技 
术 (Bengio 等 ，2001，Bengio 等 人 在 2001 年 发 表 在 NIPS 上 的 文章 《4 Neural Probabilistic 
Language Model》， 现 在 多 数 看 到 的 是 他 们 在 2003 年 投 到 JMLR 上 的 同名 论文 ) ， 但 直到 十 多 
年 后 , 由 于 大 数据 的 可 用 性 和 计算 机 更 快 的 计算 能 力 , 它 才 被 证 明 在 实际 大 规模 场景 下 具有 真正 的 
价值 (Mikolov 等 ,2013) 。 此 外 , 还 有 大 量 的 其 他 NLP 应 用 ， 如 图 像 字 幕 (Karpathy 和 Fei-Fei， 
2015; Fang ®, 2015; Gan A, 2017) 、 视 觉 问 答 (Fei-Fei 和 Perona，2016)、 语 音 理解 (Mesnil 
等 ，2013) 、 网 络 搜索 (Huang 等 ，2013 ) 和 推荐 系统 ;由 于 深度 学 习 的 广泛 应 用 ， 也 有 许多 非 
NLP 任务 , 像 药 物 发 现 和 毒 理学 、 客 户 关系 管理 、 手 势 识别 、 医 学 信息 学 、 广 告 、 医 学 图 像 分 析 、 
机 器 人 、 无 人 驾驶 车 辆 和 电子 竞技 游戏 〈 例 如 ， 雅 达 利 Atari、Go、 扑 元 和 最 新 的 DOTA2 ) 等 。 

在 基于 文本 的 NLP 应 用 领域 ， 机 器 翻译 可 能 受到 深度 学 习 的 影响 最 大 。 当 前 ， 在 实际 应 用 中 
表现 最 佳 的 机 器 翻译 系统 是 基于 深度 神经 网 络 的 模式 ， 例 如 ， 人 谷歌 于 2016 年 9 月 宣布 开发 第 一 阶 
段 的 神经 网 络 机 器 翻译 ， 而 微软 在 2 个 月 后 发 表 了 类 似 的 声明 。Facebook 已 经 致力 于 神经 网 络 机 
器 翻译 一 年 左右 , 到 2017 年 8 月 , 它 正在 全 面部 署 。 最 近 , 谷歌 发 布 了 机 器 翻译 领域 最 强 的 BERT 
的 多 语言 模型 。BERT 的 全 称 是 Bidirectional Encoder Representations from Transformers， 是 一 种 预 
训练 语言 表示 的 最 新 方法 。 

BERT 在 机 器 阅读 理解 项 级 水 平 测试 SQuAD1.1 中 表现 出 惊人 的 成 绩 : 两 个 衡量 指标 上 全 面 超 
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越 人 类 , 而 且 在 11 种 不 同 NLP 测试 中 同样 给 出 了 最 好 的 成 绩 , 其 中 包括 将 GLUE 基准 推 至 80.4% 
(绝对 改进 率 7.696) , MultiNLI 准确 度 达 到 86.7% (绝对 改进 率 5.696 ) 等 。 对 于 机 器 翻译 的 解读 ， 
本 书 也 会 在 第 11 章 进 行 深入 探讨 。 
在 将 深度 学 习 应 用 于 NLP 问题 的 过 程 中 ， 近 年 来 出 现 的 两 个 重要 技术 突破 是 序列 到 序列 学 习 
(Sutskevar ^5, 2014) 和 注意 力 建 模 (Bahdanau 4$, 20150 。 序 列 到 序列 学 习 引 入 了 一 个 强大 的 
思想 , 即 利 用 循环 网 络 以 端 到 端的 方式 进行 编码 和 解码。 虽然 注意 力 建 模 最 初 是 为 了 解决 对 长 序列 
进行 编码 的 困难 ， 但 随后 的 发 展 显 然 扩 展 了 它 的 功能 ， 能 够 对 任意 两 个 序列 进行 高 度 灵 活 的 排列 ， 
且 可 以 与 神经 网 络 参数 一 起 进行 学 习 。 与 基于 统计 学 习 和 单词 \ 短 语 的 局 部 表示 的 最 佳 系 统 相 比 ， 
序列 到 序列 学 习 和 注意 力 机 制 的 关键 思想 提高 了 基于 分 布 式 嵌入 的 神经 网 络 机 器 翻译 的 性 能 .在 这 
一 成 功 之 后 不 入， 这 些 概念 也 被 成 功 地 应 用 到 其 他 一 些 与 NLP 相关 的 任务 中 ， 例 如 图 像 字 幕 生 成 
(Karpathy 和 Fei-Fei, 2015; Devlin 5$, 2015) 、 语 音 识别 (Chorowski ^$, 20150 、 句 法 解析 、 
文本 理解 、 问 答 系统 等 。 
其 实 , 基于 神经 网 络 的 深度 学 习 模 型 通常 比 早 期 开发 的 传统 机 器 学 习 模 型 更 易于 设计 。 在 许多 
应 用 中 ， 以 端 到 端的 方式 同时 对 模型 的 所 有 部 分 执行 深度 学 习 ， 从 特征 提取 一 直到 预测 。 促成 神经 
网 络 模型 简化 的 另 一 个 因素 是 相同 模型 构建 的 模块 (例如 不 同类 型 的 层 ) 通常 也 可 以 适用 于 许多 不 
同 的 任务 。 另 外 ， 还 开发 了 软件 工具 包 ， 以 便 更 快 更 有 效 地 实现 这 些 模型 。 基 于 这 些 原 因 ， 深 度 神 
经 网 络 现在 是 大 型 数据 集 (包括 NLP 任务 ) 上 的 各 种 机 器 学 习 和 人 工 智 能 任务 的 主要 选择 方法 。 
尽管 深度 学 习 已 经 被 证 明 能 够 以 革命 性 的 方式 对 语音 、 图 像 和 视频 进行 重 塑 处 理 , 并 且 在 许多 
实际 的 NLP 任务 中 取得 了 经 验 上 的 成 功 ， 在 将 深度 学 习 与 基于 文本 的 NLP 进行 交叉 时 ， 但 其 效果 
却 不 那么 明显 。 在 语音 、 图 像 和 视频 处 理 中 , 深度 学 习 通过 直接 从 原始 感知 数据 中 学 习 高 级 别 概念 ， 
有 效 地 解决 了 语义 鸿沟 问题 。 然 而 ， 在 NLP 中 ， 研 究 人 员 在 形态 学 、 人 句法 和 语义 学 上 提出 了 更 强 
大 的 理论 和 结构 化 模型 , 提炼 出 了 理解 和 生成 自然 语言 的 基本 机 制 , 但 这 些 机 制 与 神经 网 络 并 不 容 
易 莱 容 。 与 语音 、 图 像 和 视频 信号 相 比 ， 从 文本 数据 中 学 习 到 的 神经 表征 似乎 不 能 同样 直接 洞察 日 
然 语 言 。 因 此 ， 将 神经 网 络 特别 是 具有 复杂 层次 结构 的 神经 网 络 应 用 于 NLP， 近 年 来 得 到 了 越 来 
越 多 的 关注 , 也 已 经 成 为 NLP 和 深度 学 习 社 区 中 最 活跃 的 领域 , 并 取得 了 显著 的 进步 (Deng,2016; 
Manning 和 Socher, 2017) . 


1.6 NLP 中 深度 学 习 的 局 限 性 


目前 ， 尽 管 深度 学 习 在 NLP 任务 中 取得 了 巨大 的 成 功 ， 尤 其 是 在 语音 识别 /理解 、 语 言 建 模 和 
机 器 翻译 方面 ， 但 目前 仍然 存在 着 一 些 巨大 的 挑战 。 目 前 基于 神经 网 络 作为 黑 盒 的 深度 学 习 方 法 普遍 
缺乏 可 解释 性 ， 甚 至 是 远离 可 解释 性 ， 而 在 NLP 的 理论 阶段 建立 的 “理性 主义 ”范式 中 ， 专 家 设计 的 
规则 目 然 是 可 解释 的 。 在 现实 工作 任务 中 ， 其 实 是 迫切 需要 从 “ 黑 盒 ”模型 中 得 到 关于 预测 的 解释 ， 
这 不 仅仅 是 为 了 改进 模型 ， 也 是 为 了 给 系统 使 用 者 提供 有 针对 性 的 合理 建议 (Koh 和 Liang，2017) 。 

在 许多 应 用 中 ,深度 学 习 方 法 已 经 证 明 其 识别 准确 率 接 近 或 超过 人 类 , 但 与 人 类 相 比 ， 它 需要 
更 多 的 训练 数据 、 功 耗 和 计算 资源 。 从 整体 统计 的 角度 来 看 ， 其 精确 度 的 结果 令 人 印象 深刻 ， 但 从 
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个 体 角 度 来 看 往往 不 可 靠 。 而 且 ， 当 前 大 多 数 深 度 学 习 模 型 没有 推理 和 解释 能 力 ， 使 得 它们 容易 遭 
受灾 难 性 失败 或 攻击 ， 而 没有 能 力 预见 并 因此 防止 这 类 失败 或 攻击 。 另 外 ， 目 前 的 NLP 模型 没有 
考虑 到 通过 最 终 的 NLP 系统 制定 和 执行 决策 目标 及 计划 的 必要 性 。 当 前 NLP 中 基于 深度 学 习 方法 
的 一 个 局 限 性 是 理解 和 推理 句子 间 关 系 的 能 力 较 差 ,尽管 在 句子 中 的 词 间 和 短语 方面 已 经 取得 了 巨 
大 进步 。 

目前 ， 在 NLP 任务 中 使 用 深度 学 习 时 ， 虽 然 我 们 可 以 使 用 基于 〈 双 癌 ) LSTM 的 标准 序列 模 
型 ,上 且 遇 到 任务 中 涉及 的 信息 来 自 于 另外 一 个 数据 源 时 可 以 使 用 端 到 端的 方式 训练 整个 模型 ,但 是 
实际 上 人 类 对 于 自然 语言 的 理解 (以 文本 形式 ) 需要 比 序列 模型 更 复杂 的 结构 。 换 名 话说， 当前 
NLP 中 基于 序列 的 深度 学 习 系 统 在 利用 模块 化 、 结 构 化 记忆 和 用 于 句子 及 更 大 文本 进行 递归 、 树 
状 表示 方面 还 存在 优化 的 空间 (Manning，2016) . 

为 了 克服 上 述 挑 战 并 实现 NLP 作为 人 工 智 能 核心 领域 的 更 大 突破 , 有 关 NLP 和 深度 学 习 研 究 
人 员 需 要 在 基础 研究 和 应 用 研究 方面 做 出 一 些 里 程 碑 式 的 工作 。 


1.7 NLP 的 应 用 场景 


目前 ， 随 着 上 自然 语言 处 理 领 域 研究 越 来 越 深 入 ， 其 应 用 的 行业 越 来 越 广 。 比 如 在 文本 和 语音 方 
面 的 应 用 。 其 中 ， 我 们 可 以 看 到 NLP 在 文本 方面 的 应 用 有 基于 上 自然 语言 理解 的 智能 搜索 引擎 和 管 
能 检索 、 智 能 机 器 翻译 、 自 动 摘要 与 文本 综合 、 文 本 分 类 与 文件 整理 、 智 能 自动 作文 系统 、 智 能 判 
卷 系统 、 信 息 过 滤 与 垃圾 邮件 处 理 、 文 学 研究 与 古文 研究 、 语 法 校对 、 文 本 数据 挖掘 与 智能 决策 以 
及 基于 自然 语言 的 计算 机 程序 设计 等 。 在 语音 方面 的 应 用 有 机 器 同 声 传译 、 智 能 远程 教学 与 答疑 、 
语音 控制 、 智 能 客户 服务 、 机 器 聊天 与 智能 参谋 、 智 能 交通 信息 服务 (ATIS) 、 智 能 解说 与 体育 
新 闻 实 时 解说 .语音 挖掘 与 多 媒体 挖掘 、 多 媒体 信息 提取 与 文本 转化 以 及 对 残疾 人 智能 帮助 系统 等 。 
下 面 我 们 给 出 一 些 常见 的 应 用 场景 。 


1 . 搜索 引擎 


在 搜索 引擎 中 ,我 们 常常 使 用 词义 消 上 至 、 指 代 消 解 、 句 法 分 析 等 日 然 语言 处 理 技 术 ， 以 便 更 好 
地 为 用 户 提 供 更 加 优质 的 服务 。 因 为 我 们 的 搜索 引擎 不 仅仅 是 为 用 户 提 供 所 寻找 的 答案 , 还 要 做 好 
用 户 与 实体 世界 连接 的 贴心 服务 。 搜 索引 擎 最 基本 的 模式 就 是 目 动 化 地 聚合 足够 多 的 信息 , 对 之 进 
行 解析 、 处 理 和 组 织 , 啊 应 用 户 的 搜索 请 求 并 找到 对 应 结果 再 返回 给 用 户 。 这 里 涉及 的 每 一 个 环节 ， 
都 需要 用 到 自然 语言 处 理 技 术 。 例如 , 我 们 日 常生 活 中 使 用 百度 搜索 “天 气 ”“XX 公交 线路 ”“ 火 
时 ”等 这 样 略 显 模糊 的 需求 信息 ， 一 般 情况 下 都 会 得 到 满意 的 搜索 结果 。 目 然 语言 处 理 技 术 在 搜 
索引 擎 领域 中 有 了 更 多 的 应 用 , 才 使 得 搜索 引擎 能 够 快速 精准 地 返回 给 用 户 所 要 的 搜索 结果 .当然 ， 
男 一 方面 ， 正 是 谷歌 和 百度 这 样 IT 巨头 商业 上 的 成 功 ， 推 进 了 目 然 语 言 处 理 技术 的 不 断 进 步 。 


2 . 推荐 系统 


早 在 1992 年 Goldberg 就 首次 给 出 了 一 个 推荐 系统 : Tapestry。 它 其 实 只 是 一 个 个 性 化 的 邮件 
推荐 系统 ， 首 次 提出 了 协同 过 滤 的 思想 ， 利 用 用 户 的 标注 和 行为 信息 对 邮件 进行 重 排序 。 推 荐 系统 
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依赖 的 是 数据 、 算 法 、 人 机 交互 等 环节 的 相互 配合 ， 其 中 使 用 了 数据 挖掘 、 信 息 检 索 和 计算 统计 学 
等 技术 。 我 们 使 用 推荐 系统 的 目的 是 关联 用 户 和 一 些 信 息 ， 协 助 用 户 找到 对 其 有 价值 的 信息 ， 且 让 
这 些 信息 能 够 尽快 呈现 在 对 其 感 兴趣 的 用 户 面 前 ， 从 而 实现 精准 推荐 。 

推荐 系统 在 音乐 电影 的 推荐 、 电 子 商务 产品 推荐 、 个 性 化 阅读 、 社 交 网 络 好 友 推 荐 等 场景 发 挥 
着 重要 的 作用 , 美国 Netflix 中 2/3 的 电影 是 因为 被 推荐 而 观看 的 ，Google News 利用 推荐 系统 提 
JF Y 38% 的 点 击 率 ，Amazon 的 销售 中 推荐 占 比 高 达 3596. 


机 器 翻译 是 自然 语言 处 理 中 最 为 人 知 的 应 用 场景 ,一 般 是 将 机 器 翻译 作为 某 个 应 用 的 组 成 部 分 ， 
例如 跨 语言 的 搜索 引流 等 。 目 前 以 IBM、 人 和 谷歌、 微软 为 代表 的 国外 科研 机 构 和 企业 均 相 继 成 立 机 
器 翻译 团队 ， 专 门 从 事 智 能 翻译 研究 。 例 如 ,IBM 于 2009 年 9 月 推出 ViaVoiceTranslator 机 器 
翻译 软件 ， 为 自动 化 翻译 葛 定 了 基础 ，2011 年 开始 ， 伴 随 着 语音 识别 、 机 器 翻译 技术 、DNN ( 深 
度 神 经 网 络 ) 技术 的 快速 发 展 和 经 济 全 球 化 的 需求 , 口语 自动 翻译 研究 已 成 为 当今 信息 处 理 领 域 新 


微软 的 Skype 于 2014 年 12 月 宣布 推出 实时 机 器 翻译 的 预览 版 、 文 持 英语 和 西班牙 语 的 实时 翻 
译 ， 并 宣布 支持 40 多 种 语言 的 文本 实时 翻译 功能 。 

尤其 值得 注意 的 是 ， 在 “一 带 一 路 ”这 一 发 展 背 景 下 ， 合 作 沟 通 会 涉及 60 多 个 国家 、53 种 
语言 ， 此 时 机 器 翻译 的 技术 应 用 显得 尤为 重要 ， 语 言 的 畅通 是 “一 带 一 路 ”倡议 得 以 实施 的 重要 基 
础 。 机 器 翻译 涉及 语义 分 析 、 上 下 文 环 境 等 诸多 挑战 ， 其 发 展 道 路 还 有 很 长 一 段 路 要 走 。 

4 . 聊天 机 器 人 


聊天 机 器 人 是 指 能 通过 聊天 App、 聊 天 窗口 或 语音 唤醒 App 进行 交流 的 计算 机 程序 ， 是 被 用 
来 解决 客户 问题 的 智能 数字 化 助手 ， 其 特点 是 成 本 低 、 高 效 且 持续 工作 。 例 如 ，Siri、 小 娜 等 对 话 
机 器 人 就 是 一 个 应 用 场景 。 除 此 之 外 ， 聊 天 机 器 人 在 一 些 电 商 网 站 有 着 很 实用 的 价值 ， 可 以 充当 客 
服 角 色 ， 例 如 京东 客服 JIMI。 有 很 多 基本 的 问题 ， 其 实 并 不 需要 联系 人 工 客 服 来 解决 。 通 过 应 用 
智能 问答 系统 ， 可 以 排除 掉 大 量 的 用 户 问题 ， 比 如 商品 的 质量 投诉 、 商 品 的 基本 信息 查询 等 程式 化 
问题 ,在 这 些 特定 的 场景 中 ,特别 是 会 被 问 到 高 度 可 预测 的 问题 中 ,利用 聊天 机 器 人 可 以 节省 大 量 
的 人 工 成 本 。 图 1-2 给 出 了 一 些 聊 天 机 器 人 产品 。 

5 . 知识 图 谱 

知识 图 谱 能 够 描述 复杂 的 关联 关系 , 它 的 应 用 极为 广泛 , 最 为 人 所 知 的 就 是 被 用 在 搜索 引擎 中 
丰富 搜索 结果 ， 并 为 搜索 结果 提供 结构 化 结果 来 体现 关联 性 ,这 也 是 谷歌 提出 知识 图 谱 的 初衷 。 同 
时 微软 小 六、 苹果 Sii 等 聊天 机 器 人 中 也 加 入 了 知识 图 谱 的 应 用 。IBM Watson 是 问答 系统 中 应 用 
知识 图 谱 较为 典型 的 例子 。 按 照应 用 方式 ， 可 以 将 知识 图 谱 的 应 用 分 为 语义 搜索 、 知 识 问答 以 及 基 
于 知识 的 大 数据 分 析 和 决策 等 。 
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WARES A 


深度 语义 理解 916 
用 户 协同 


时 间 


1-2 ”部 分 聊天 机 器 人 示意 图 


语义 搜索 利用 建立 大 规模 知识 库 对 搜索 关键 词 和 文档 内 容 进 行 语 义 标注 , 改善 搜索 结果 ， 如 谷 
歌 、 白 度 等 在 搜索 结果 中 嵌入 知识 图 谱 。 知 识 问 答 是 基于 知识 库 的 问答 ， 通 过 对 提问 句子 的 语义 分 
析 ， 将 其 解析 为 结构 化 的 询问 ,在 已 有 的 知识 库 中 获取 答案 。 在 大 数据 的 分 析 和 决策 方面 ， 知 识 图 
说 起 到 了 辅助 作用 , 典型 应 用 是 美国 Netflix 公司 利用 其 订阅 用 户 的 注册 信息 以 及 观看 行为 构建 的 
知识 图 谱 反 映 出 英 剧 版 《纸牌 屋 》 很 受 欢 迎 ， 于 是 招 摄 了 美剧 《纸牌 屋 》， 大 受 妃 捧 。 知 识 图 谱 展 
示 如 图 1-3 所 示 。 
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知识 图 谱 展示 图 
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1.8 NLP 的 发 展 前 景 


随 厦 深度 学 习 时 代 的 来 临 , 神经 网 络 成 为 一 种 强大 的 机 右 学 习 工 具 , 并 使 得 日 然 语 言 处 理 取 得 
了 许多 突破 性 发 展 ， 如 情感 分 析 、 智 能 问答 、 机 器 翻译 等 领域 都 在 飞速 发 展 。 下 面 我 们 梳理 一 些 日 


1. 文本 理解 与 推理 : 浅 层 分 析 向 深度 理解 迈进 

谷歌 等 公司 已 经 推出 了 以 阅读 理解 作为 深入 探索 自然 语言 理解 的 平台 。 

文本 理解 和 推理 是 自然 语言 处 理 的 重要 部 分 ,现在 的 机 器 软件 已 经 可 以 根据 文本 的 上 下 文 来 分 
辨 代词 等 指示 词 ， 这 是 文本 理解 与 推理 从 浅 层 分 析 问 深度 理解 迈进 的 重要 一 步 。 


2 . 对 话机 器 人 : 实用 化 、 场 景 化 


从 最 初 2012 年 到 2014 年 的 语音 助手 , 到 2014 年 起 逐渐 出 现 的 聊天 机 器 人 微软 小 冰 、 百 度 
小 度 ， 再 到 2016 年 哈尔滨 工业 大 学 SCIR 的 笨 笨 ,对 话机 器 人 越 来 越 智 能 。 最 初 的 语音 助手 可 以 
昕 得 到 但 是 听 不 懂 , 之 后 的 对 话机 器 人 可 以 听 得 懂 但 是 实用 性 却 不 强 , 现在 对 话机 器 人 更 多 的 是 和 
场景 结合 ， 即 在 特定 场景 做 有 用 的 人 机 对 话 。 

3 . NLP+ 行 业 : 与 专业 领域 深度 结合 

银行 、 电 器 、 医 药 、 司 法 、 教 育 等 领域 对 自然 语言 处 理 的 需求 都 非常 多 。 自 然 语言 处 理 与 各 行 
各 业 的 结合 越 来 越 紧 密 ， 专业 化 的 服务 趋势 逐渐 增强 。 可 以 预测 ,自然 语言 处 理 首先 会 在 信息 准备 
充分 并 且 服 务 方式 本 身 就 是 知识 和 信息 的 领域 产生 突破 ， 例 如 医疗 、 金 融 、 教 育 和 司法 领域 。 

4 . 学 习 模 式 : 先 验 语言 知识 与 深度 学 习 结合 

自然 语言 处 理 中 学 习 模式 有 一 个 较为 明显 的 变化 。 在 浅 层 到 深层 的 学 习 模式 中 , 浅 层 学 习 是 分 
步 又 的 ,深度 学 习 的 方法 贯穿 在 浅 层 分 析 的 每 个 步 又 中 ， 由 各 个 步 又 连接 而 成 。 而 直接 的 深度 学 习 
则 是 直接 从 端 到 端 ， 人 为 贡献 的 知识 在 深度 学 习 中 所 占 的 比重 大 幅度 减 小 。 但 如 何 将 深度 学 习 应 用 
于 自然 语言 处 理 需 要 进行 更 多 的 研究 和 探索 , 针对 不 同 任务 的 不 同 字 词 表示 , 将 先 验 知识 和 深度 学 
习 相 结合 是 未 来 的 一 个 发 展 趋势 。 

5 . 文本 情感 分 析 : 事实 性 文本 到 情感 文本 

之 前 的 研究 主要 是 新 闻 领 域 的 事实 性 文本 , 现在 情感 文本 分 析 更 受 重 视 , 并 且 在 商业 和 政府 舆 
情 上 可 以 得 到 很 好 的 应 用 。 例 如 ，2017 年 新 沪 微 奥 情 和 哈尔滨 工业 大 学 推出 “情绪 地 图 ”， 网 民 
可 以 登录 新 痕 舆情 官方 网 站 查询 任何 关键 词 的 “情绪 地 图 ”， 这 是 语义 情绪 分 析 在 舆情 分 析 产 业 上 
的 首次 正式 应 用 。 
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1.9 总 结 


IS - 


在 本 章 中 , 为 了 建立 本 书 的 基本 框架 , 我 们 首先 解释 了 为 什么 我 们 需要 NLP, 然后 讨论 了 NLP 
的 各 类 任务 。 对 于 NLP 的 来 龙 去 脉 ， 我 们 又 从 理性 主义 和 经 验 主 义 到 当前 深层 学 习 浪 潮 的 三 次 日 
然 语言 处 理 浪潮 出 发 , 回顾 了 自然 语言 处 理 领 域 几 十 年 来 的 历史 发 展 情况 ,以 便 从 历史 发 展 中 提炼 
出 有 助 于 指导 未 来 方 同 的 见解 。 接 着 , 我 们 对 于 当前 NLP 中 深度 学 习 的 局 限 性 进行 了 解读 。 最 后 ， 
我 们 对 于 NLP 中 的 应 用 场景 和 前 景 做 了 简 述 。 

首先 ， 我 们 通过 一 个 日 常生 活 中 常见 的 寻找 小 吃 店 位 置 的 例子 开启 了 解读 NLP 的 篇 章 ， 并 对 
NLP 主要 的 工作 任务 进行 了 初步 划分 ， 包 插 标 记 人 化、 词义 消 卜 、 词 性 标注 、 实 体 命名 识别 、 句 子 
或 概要 分 类 、 文 本 生成 、 问 答 系统 、 机 器 翻译 等 。 

其 次 ， 通 过 对 于 NLP 发 展 的 三 个 阶段 的 分 析 ， 我 们 知道 当前 的 NLP 深度 学 习 技 术 是 从 前 两 波 
发 展 起 来 的 一 种 NLP 技术 概念 和 范式 上 的 革新 。 这 场 革新 的 关键 支撑 包括 通过 骨 入 对 语言 实体 ( 子 
单词 、 单 词 、 短 语 、 句 子 、 段 落 、 文 档 等 ) 的 分 布 式 表示 、 风 入 引起 的 语义 概括 、 语 言 的 大 跨度 深 
层 序 列 建 模 、 能 够 从 低 到 高 有 效 表 达 语 言 水 平 的 层次 网 络 以 及 端 到 端的 深度 学 习 方 法 ， 以 共同 解决 
许多 NLP 任务 中 的 问题 。 在 深度 学 习 浪 潮 出 现 之 前 ， 这 些 都 是 不 可 能 实现 的 ， 这 不 仅 是 因为 之 前 
的 两 次 发 展 浪潮 缺乏 大 数据 和 强大 的 计算 能 力 , 更 重要 的 是 在 于 近年 来 深度 学 习 范 式 出 现 了 之 前 缺 
少 的 正确 框架 。 

接着 ， 我 们 对 于 当前 NLP 领域 深度 学 习 方 面 的 局 限 性 进行 了 解读 ， 并 给 出 了 局 限 性 存在 的 成 
因 和 简要 的 解决 之 道 。 

最 后 ， 我 们 对 于 NLP 的 常见 应 用 领域 进行 了 说 明 并 给 出 了 NLP 的 发 展 前 景 。 

总 之 ， 深 度 学 习 开创 了 一 个 新 的 世界 ， 使 得 NLP 比 过 去 任何 时 候 都 更 具有 活力 。 深 度 学 习 不 
仅 提 供 了 一 个 强大 的 建 模 框架 ， 用 于 表示 计算 机 系统 中 人 类 上 自然 语言 的 认 知 能 力 ， 更 重要 的 是 , E 
己 经 在 NLP 的 许多 关键 应 用 领域 创造 了 卓越 的 实际 效果 。 在 本 书 的 其 余 章 节 中 ， 将 提供 使 用 深度 
学 习 框 架 开 发 (具体 利用 TensorFlow 工具 ) 的 NLP 技术 的 详细 描述 ， 同 时 也 希望 本 书 能 够 对 NLP 
领域 的 人 员 有 一 些 帮助 ， 以 便 使 得 NLP 领域 有 更 多 突破 性 成 果 的 出 现 。 接 下 来 的 一 章 ， 我 们 将 介 
绍 深度 学 习 基 础 。 


RIS E 2] AR 


2.1 深度 学 习 介绍 


具有 机 器 学 习 基础 的 朋友 可 能 都 知道 , 机 句 学 习 实 际 上 是 一 个 寻找 最 优 模型 的 过 程 。 深度 学 习 
是 机 器 学 习 的 一 个 扩展 领域 , 其 概念 源 自 于 科学 家 对 人 工 网 络 长 期 研究 的 积累 , 深度 学 习 的 基本 结 
构 其 实 也 是 深度 神经 网 络 。 在 深度 学 习 下 实现 的 算法 集合 与 人 类 大 脑 中 的 刺激 和 神经 元 之 间 的 关系 
具有 相似 之 处 。 深 度 学 习 在 计算 机 视觉 、 语 言 翻译 、 语 音 识别 、 图 像 识别 等 方面 具有 广泛 的 应 用 。 
这 些 算 法 集 很 简单 ， 既 可 以 在 有 监督 的 情况 下 学 习 ， 也 可 以 在 无 监督 的 情况 下 学 习 。 

大 多 数 的 深度 学 习 算法 都 是 基于 人 工 神 经 网 络 的 理念 ,数据 丰富 ,计算 资源 充足 ,使 得 目前 世 
界 上 对 这 种 算法 的 训练 变 得 更 加 容易 、 深 度 学 习 模 型 的 性 能 得 到 不 断 提 升 。 对 于 这 一 点 , 我们 可 以 
在 图 2-1 中 看 到 更 好 的 表示 。 


数据 数量 


图 2-1 基于 神经 网 络 的 深度 学 习 算 法 和 传统 学 习 算法 效果 图 
这 里 深度 学 习 中 的 “深度 ”是 指 人 工 神经 网 络 结构 的 深度 ， 而 “学 习 ” 是 指 通过 人 工 神 经 网 络 
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本 身 进 行 学 习 。 图 2-2 给 出 了 深度 和 浅 度 网 络 之 间 差 异 的 展示 ， 以 及 为 什么 “深度 学 习 ” 会 受到 大 
家 的 热 捧 。 


--»> h(0, x) --»> h(0, x) 


深度 网 络 浅 度 网 络 
2-2 ”深度 和 浅 度 网 络 示 意图 


通过 利用 深度 神经 网 络 ， 我 们 能 够 从 未 标记 和 非 结 构 化 数据 〈 如 图 像 〈 像 素数 据 ) 、 文 档 〈 文 
本 数据 ) 或 文件 〈 音 频 、 视 频数 据 ) ) 中 寻找 出 潜在 的 结构 情况 (或 特征 学 习 ) 。 实 际 上 ， 虽 然 深 
度 学 习 中 的 人 工 神经 网 络 和 模型 在 本 质 上 具有 相似 的 结构 , 但 这 并 不 意味 着 两 个 人 工 神经 网 络 的 组 
合 在 利用 数据 进行 训练 时 ， 我们 获得 的 表现 (或 效果 ) 与 深度 神经 网 络 就 相似 。 其 中 一 个 重要 的 原 
因 是 ， 深 度 神 经 网 络 与 普通 人 工 神经 网 络 之 间 所 使 用 的 有 反问 传播 方式 不 同 。 

接 下 来 ， 我 们 先 介 绍 一 下 深度 学 习 的 演变 过 程 ， 然 后 从 神经 网 络 开 始 详细 解读 。 


2.2 ”深度 学 习 演 变 简 述 


2.2.1 深度 学 习 早 期 


1943 年 ， 心 理学 家 麦 卡 洛 苑 和 数学 多 辑 学 家 皮 效 发 表 了 论文 《神经 活动 中 内 在 思想 的 旬 辑 演 
算 》， 提 出 了 MP 模型 。MP 模型 是 模仿 神经 元 的 结构 和 工作 原理 构建 的 一 个 基于 神经 网 络 的 数学 
模型 ， 本 质 上 是 一 种 “模拟 人 类 大 脑 ” 的 神经 元 模型 。MP 模型 作为 人 工 神经 网 络 的 起 源 ， 开 创 了 
人 工 神经 网 络 的 新 时 代 ， 也 丙 定 了 神经 网 络 模型 的 基础 。 

1949 年 ， 加 拿 大 著名 心理 学 家 唐纳德 。 海 布 在 《行为 的 组 织 》 中 提出 了 一 种 基于 无 监督 学 习 
的 规则 一 一 海 布 学 习 规 则 (Hebb Rule) 。 海 布 学 习 规 则 模仿 人 类 认 知 世界 的 过 程 建立 一 种 “网 络 
模型 ”， 该 网 络 模型 针对 训练 数据 集 进 行 大 量 的 训练 并 提取 训练 集 的 统计 特征 ， 然 后 按照 样本 的 相 
似 程度 进行 分 类 ,把 相互 之 间 联 系 密切 的 样本 分 为 一 类 ， 这样 就 把 样本 分 成 了 奢 干 类 。 海 布 学习 规 
则 与 “条 件 反 射 ” 机 理 一 致 ， 为 后 面 的 神经 网 络 学 习 算法 呐 定 了 基础 ， 具 有 重大 的 历史 意义 。 

20 世纪 50 FRAR, E MP 模型 和 海 布 学 习 规则 的 研究 基础 上 ， 美 国 科 学 家 罗 森 布 拉 特 发 现 了 
一 种 类 似 于 人 类 学 习 过 程 的 学 习 算 法 一 一 感知 机 学 习 ， 并 于 1958 年 正式 提出 了 由 两 层 神 经 元 组 成 
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的 神经 网 络 ， 称 之 为 “感知 器 ”。 感 知 器 本 质 上 是 一 种 线性 模型 ， 可 以 对 输入 的 训练 集 数据 进行 二 
分 类 , 且 能 够 在 训练 集中 自动 更 新 权重 值 。 感知 器 的 提出 吸引 了 大 量 科 学 家 对 人 工 神经 网 络 研究 的 
兴趣 ， 对 神经 网 络 的 发 展 具有 里 程 碑 式 的 意义 。 

随 着 研究 的 深入 ， 在 1969 年 ，“AI 之 父 ” 马 文 。 明 斯 基 和 和 LOGO 语言 的 创始 人 西蒙 ， 派 珀 
特 共同 编写 了 一 本 图 书 《 感 知 器 》， 在 书 中 他 们 证 明了 单 层 感知 器 无 法 解决 线性 不 可 分 问题 (例如 
异 或 问题 ) 。 由 于 这 个 致命 的 缺陷 以 及 没有 及 时 推广 感知 器 到 多 层 神 经 网 络 中 , 在 20 世纪 70 年 代 
人 工 神经 网 络 进 入 了 第 一 个 寒冬 期 ， 人 们 对 神经 网 络 的 研究 也 停 清 了 将 近 20 年 。 


2.22 ARF JHR 


1982 年 ， 著 名 物理 学 家 约翰 。 堆 普 菲 尔 德 发 明了 Hopfield 神经 网 络 。Hopfield 神经 网 络 是 一 
种 结合 存储 系统 和 二 元 系统 的 循环 神经 网 络 。Hopfield 网 络 也 可 以 模拟 人 类 的 记忆 ， 根 据 激 活 函 数 
的 选取 不 同 ， 有 连续 型 和 离散 型 两 种 类 型 ， 分 别 用 于 优化 计算 和 联想 记忆 。 由 于 容易 陷入 局 部 最 小 
值 的 缺陷 ， 该 算法 并 未 在 当时 引起 很 大 的 索 动 。 

直到 1986 年 ， 深 度 学 习 之 父 杰 弗 里 。 辛 顿 提 出 了 一 种 适用 于 多 层 感 知 器 的 反问 传 播 算法 一 一 
BP 算法 。BP 算法 在 传统 神经 网 络 正 向 传播 的 基础 上 ,增加 了 误差 的 反 向 传播 过 程 。 反 向 传播 过 程 
不 断 地 调整 神经 元 之 间 的 权重 值 和 浆 值 , 直到 输出 的 误差 减 小 到 允许 的 范围 之 内 , 或 达到 预先 设 定 
的 训练 次 数 为 止 。BP 算法 完美 地 解决 了 非 线 性 分 类 问题 ， 让 人 工 神经 网 络 再 次 引起 了 人 们 广泛 的 

20 世纪 80 年 代 计 算 机 的 硬件 水 平 有 限 ， 比 如 运算 能 力 跟 不 上 上， 导致 当 神经 网 络 的 规模 增 大 时 
使 用 BP 算法 出 现 “ 梯 度 消 失 ” 的 问题 。 这 使 得 BP 算法 的 发 展 受到 了 很 大 的 限制 。 再 加 上 20 世纪 
90 年 代 中 期 ， 以 SVM 为 代表 的 其 他 浅 层 机 器 学 习 算 法 的 提出 ， 及 其 在 分 类 、 回 归 问 题 上 均 取 得 了 
很 好 的 效果 ， 其 原理 又 明显 不 同 于 神经 网 络 模型 ， 所 以 人 工 神 经 网 络 的 发 展 再 次 进入 了 瓶 人 须 期 。 


2.23 ”深度 学 习 的 爆发 


2006 年 ， 杰 弗 里 ， 辛 顿 以 及 他 的 学 生 鲁 斯 兰 。 萨 拉 赫 丁 诺 夫 正 式 提出 了 深度 学 习 的 概念 。 他 
们 在 世界 顶级 学 术 期 刊 《 科 学 》 发 表 的 一 篇 文章 中 详细 地 给 出 了 “梯度 消失 ”问题 的 解决 方案 一 一 
通过 无 监督 的 学 习 方 法 逐 层 训练 算法 , 再 使 用 有 监督 的 反问 传播 算法 进行 调 优 。 该 深度 学 习 方 法 的 
提出 , 立即 在 学 术 圈 引 起 了 巨大 的 反 啊 ， 以 斯 坦 福 大 学 、 多 伦 多 大 学 为 代表 的 众多 世界 知名 高 校 纷 
纷 投 入 巨大 的 人 力 、 财 力 进 行 深 度 学 习 领 域 的 相关 研究 ， 而 后 又 迅速 蔓延 到 工业 界 中 。 

2012 年 ， 在 著名 的 ImageNet 图 像 识 别 大 赛 中 ， 杰 弗 里 。 辛 顿 领 导 的 小 组 采用 深度 学 习 模 型 
AlexNet —% Fii. AlexNet 采用 ReLU 激活 函数 ， 从 根本 上 解决 了 梯度 消失 问题 ， 并 采用 GPU 极 
大 地 提高 了 模型 的 运算 速度 。 同 年 ， 由 斯 坦 福 大 学 的 吴 恩 达 教 授 和 世界 顶尖 计算 机 专家 Jeff Dean 
共同 主导 的 深度 神经 网 络 一 一 DNN 技术 在 图 像 识 别 领 域 取 得 了 惊人 的 成 绩 , 在 ImageNet 评测 中 成 
功 地 把 错误 率 从 26% 降 低 到 了 15%。 深 度 学 习 算法 在 世界 大 赛 中 脱颖而出 ， 再 一 次 吸引 了 学 术 界 
和 工业 界 对 深度 学 习 领 域 的 关注 。 
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随 着 深度 学 习 技 术 的 不 断 进 步 以 及 数据 处 理 能 力 的 不 断 提升 ，2014 F, Facebook 基于 深度 学 
HRKI DeepFace 项 目 ， 在 人 脸 识 别 方面 的 准确 率 已 经 能 达到 97% 以 上 ， 跟 人 类 识别 的 准确 率 几 
乎 没有 差别 。 这 样 的 结果 也 再 一 次 证 明了 深度 学 习 算 法 在 图 像 识 别 方面 的 一 骑 绝 尘 。 

2016 年 ， 随 着 谷歌 公司 基于 深度 学 习 开 发 的 AlphaGo 以 4:1 的 比分 战胜 了 国际 顶尖 围棋 高 手 
李 世 石 ， 深 度 学 习 的 热度 一 时 无 两 。 后 来 ，AlphaGo 又 接连 和 众多 世界 级 围棋 高 手 过 招 ， 均 取得 了 
完胜 。 这 也 证 明了 在 围棋 界 ， 基 于 深度 学 习 技术 的 机 器 人 已 经 超越 了 人 类 。 

2017 年 ， 基 于 强化 学 习 算 法 的 AlphaGo 升级 版 AlphaGo Zero 横 空 出 世 。 其 采用 “从 零 开 始 ” 
“无 师 自 通 ” 的 学 习 模 式 ， 以 100:0 的 比分 轻而易举 打败 了 之 前 的 AlphaGo。 除 了 围棋 ， 它 还 精通 
国际 象棋 等 其 他 棋 类 游戏 ， 可 以 说 是 真正 的 棋 类 “天 才 ”。 此 外 在 这 一 年 ， 深 度 学 习 的 相关 算法 在 
医疗 、 金 融 、 艺 术 、 无 人 轨 驶 等 多 个 领域 均 取 得 了 显著 的 成 果 。 所 以 ， 也 有 专家 把 2017 年 看 作 是 
深度 学 习 甚 至 是 人 工 智能 发 展 最 为 突 飞 狐 进 的 一 年 。 


2.3 神经 网 络 介 绍 


神经 网 络 这 个 词 ， 其 实 是 一 个 非常 泛 的 概念 ， 有 两 个 类 别 : 生物 神经 网 络 和 人 工 神 经 网 络 。 生 
物 神经 网 络 是 研究 生物 学 的 , 一般 是 指 生 物 的 大 脑 神经 元 、 细 胞 、 触 点 等 组 成 的 网 络 ， 用 于 产生 生 
物 的 意识 、 帮 助 生 物 进行 思考 和 行动 。 人 工 神经 网 络 (Artificial Neural Networks, ANNO 有 时 也 称 
为 神经 网 络 (NN) 或 连接 模型 (Connection Model) ， 它 是 一 种 模仿 动物 神经 网 络 的 行为 特征 ， 进 
行 分 布 式 并 行 信息 处 理 的 算法 数学 模型 。 这 种 网 络 依靠 系 统 的 复杂 程度 , 通过 调整 内 部 大 量 节点 之 
间 相 互 连 接 的 关系 ,从 而 达到 处 理 信 息 的 目的 。 人 工 神经 网 络 是 一 种 应 用 类 似 于 大 脑 神 经 突 触 联接 
的 结构 进行 信息 处 理 的 数学 模型 。 在 工程 与 学 术 界 也 常 直接 简称 为 “神经 网 络 ” 或 类 神经 网 络 。 所 
以 ， 我 们 有 必要 先 简 要 介绍 一 下 生物 神经 网 络 中 的 神经 元 模型 。 


神经 元 


对 于 神经 元 的 研究 由 来 已 和信，1904 年 生物 学 家 就 已 经 知晓 了 神经 元 的 组 成 结构 。 一 个 神经 元 
通常 具有 多 个 树 突 ,主要 用 来 接受 传 入 信息 ; 而 轴 突 只 有 一 条 ， 轴 突 尾 端 有 许多 轴 突 末梢 可 以 给 其 
他 多 个 神经 元 传递 信息 。 轴 突 末 梢 跟 其 他 神经 元 的 树 突 产 生 连 接 ， 从 而 传递 信号 。 这 个 连接 的 位 置 
在 生物 学 上 叫 作 “ 突 触 ”。 神 经 元 的 基本 功能 是 通过 接受 、 整 合 、 传 导 和 输出 信息 实现 信息 交换 。 
这 样 一 来 ， 神 经 元 按照 用 途 可 以 分 为 三 种 : 输入 神经 、 传 出 神经 和 连 体 神经 。 人 脑 中 的 神经 元 形状 
如 图 2-3 所 示 。 
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轴 突 


2-3 人 脑 中 的 神经 元 形状 图 


2.4 神经 网 络 的 基本 结构 


神经 网 络 背后 的 原理 源 自 于 一 些 基 本 元 素 组 成 的 集合 , 如 人 工 神经 元 或 感知 器 (Perceptron ) ， 
这 些 元 素 最 早 是 由 弗兰克 。 罗 森 布 拉 特 (Frank Rosenblatt) 在 20 世纪 50 年 代 开 发 的 。 它 们 有 几 个 
二 进 制 输入 〈0 或 1) ，xubx….xa， 如 果 这 些 输入 的 总 和 大 于 激活 电位 〈 等 同 于 偏差 ) ， 则 产生 单 
个 二 进 制 的 输出 。 每 当 超 过 激活 电位 时 ， 神 经 元 被 称 为 “激活 ”， 并 表现 为 一 个 阶 跃 函数 〈step 
function 。 发 射 信号 的 神经 元 将 信号 传递 给 与 其 树 突 相连 的 其 他 神经 元 ， 如 果 超 过 激活 电位 ， 树 
突 就 会 激活 信号 ， 从 而 产生 级 联 效应 , 如 图 2-4 所 示 , 其 实 这 也 是 早期 的 单 层 神经 网 络 (感知 器 ) 。 
X 


X» output 


X3 
图 2-4 神经 元 样 例 示意 图 
由 于 并 非 所 有 输入 都 具有 相同 的 重要 性 ， 因 此 每 个 输入 x; 都 被 分 配 了 自己 的 权重 值 ， 人 允许 模 
型 为 某 些 输入 指定 更 高 的 权重 值 。 因 此 ， 若 加 权 和 大 于 激活 电位 或 偏差 ， 则 输出 为 1， 即 可 以 给 出 
输出 的 结果 ， 有 具体 如 下 : 


output 三 六) wjx; + Bias (2.1) 


实际 上 ， 阶 跃 函数 的 跳跃 性 质 使 得 它 具 有 不 连续 、 不 光滑 、 不 可 导 等 特点 ， 如 果 利 用 这 种 简单 
形式 的 函数 ， 我 们 很 难 达到 理想 的 效果 ， 如 图 2-5 所 示 。 因 此 ， 在 实际 应 用 中 ， 我 们 通常 不 会 直接 
采用 阶 跃 函数 来 作为 激活 函数 ,我 们 需要 对 其 进行 两 处 修改 ， 以 使 其 表现 得 更 可 预测 ， 即 权重 值 和 
偏差 的 微小 变化 仅 导 臻 输出 的 微小 变化 ， 这 两 处 具体 如 下 : 
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R 2-5 阶 跃 函数 示意 图 
(1) 输入 可 以 取 0-1 之 间 的 任何 值 ， 而 不 是 二 进 制 (0 或 1) ; 


(2) 为 了 使 输出 在 给 定 的 输入 xi,xz,..….,xw、 权 重 值 wj,w,,.….,wwy 和 偏差 b 下 更 平稳 地 工作 ， 
我 们 使 用 以 下 Sigmoid 函数 ( 见 图 2-6) : 
o(xi, wi) = - (2.2) 


1trexp(-X;xjw;—b) 


2-6 Sigmoid 函数 
指数 函数 (或 0) 的 平滑 度 意味 着 权重 值 和 偏差 的 微小 变化 将 引起 神经 元 输出 的 微小 变化 ( 变 
化 可 能 是 权重 值 和 偏差 变化 的 线性 函数 ) 。 
除了 通常 的 Sigmoid 函数 外 ， 更 常用 的 其 他 非 线 性 函数 还 包括 以 下 几 个 函数 ,它们 中 的 每 一 个 
都 可 能 具有 类 似 或 不 同 的 输出 范围 ， 因 此 可 以 相应 地 使 用 。 
ReLU: 线性 整流 函数 (Rectified Linear Unit, ReLU) ， 又 称 修正 线性 单元 ， 是 一 种 人 工 神经 
网 络 中 第 用 的 激活 函数 (Activation Function). ， 通 第 指 代 以 斜坡 函数 及 其 变种 为 代表 的 非 线性 函 
数 。 这 将 使 激活 保持 在 0 位 ， 使 用 以 下 函数 计算 : 
Zj = fj(xj) = max(0, xj) (2.3) 


其 中 , xj 是 第 j 个 输入 值 ， zj 是 经 过 ReLU 函数 /处 理 过 的 相应 输出 值 。ReLU 函数 的 图 形 如 图 
2-7 所 示 ， 对 于 所 有 x 和 0， 函数 值 为 0， 对 于 所 有 x> 0， 函 数 线性 斜率 为 1。 
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2-7 ReLU 函数 


ReLU 经 常 面 临 着 “死亡 ”的 问题 ， 特 别 是 当 学 习 率 被 设置 为 更 高 的 数值 时 ， 因 为 这 会 触发 不 
允许 激活 特定 神经 元 的 权重 值 更 新 ， 从 而 使 该 神经 元 的 梯度 永远 为 零 。 ReLU 提供 的 另 一 个 风险 
是 激活 函数 的 爆炸 ， 因 为 输入 值 xj; 本 身 就 是 输出 。ReLU 也 存在 不 少 优点 ， 例 如 在 xj 低 于 0 的 情况 
下 引入 稀 玻 性 ， 引 起 黎 臣 表示 ， 并 且 当 ReLU 不 变 时 返回 梯度 ， 它 会 导致 更 快 的 学 习 ， 伴 随 着 梯度 
消失 的 可 能 性 会 降低 。 

下 面 给 出 其 他 几 个 常见 的 函数 ， 这 些 函 数 能 够 使 我 们 很 容易 对 梯度 下 降 进 行 训练 ， 上 有 具体 如 下 : 

€ LReLU(Leaky ReLU ): 通过 为 X 小 于 0 的 值 引 入 略微 减 小 的 斜率 ( 约 0.01 ) 来 减轻 ReLU 

死亡 的 问题 ，LReLU 确实 提供 了 很 多 成 功 的 场景 ， 尽 管 有 时 也 会 出 错 。 

e ELU (指数 线性 单位 ) : 它们 提供 负 值 ， 通 过 将 附近 的 梯度 移动 到 单位 自然 梯度 ， 将 平 

均 单 位 激活 推 至 接近 零 ， 从 而 加 快 学 习 过 程 。 有 关 ELU 更 详细 的 解释 ， 请 参阅 
Djork-ArnéClevert 的 原始 论文 ， 网 址 为 https://arxiv.org/abs/1511.07289。 
€  softmax: 也 被 称 为 归 一 化 指数 函数 ， 它 转换 (0,1) 范围 内 的 一 组 给 定 实 值 ， 使 得 组 合 和 
为 1。softmax 函数 表示 如 下 : 
O 2 e**/Y i ,e** (2.4) 
ng. 515A. 


与 哺乳 动物 大 脑 一 样 ， 单 个 神经 元 也 是 分 层 组 织 的 ， 在 一 层 内 与 下 一 层 相 连 ， 形 成 一 个 ANN 
或 者 说 人 工 神 经 网 络 或 多 层 感知 器 (MLP) 。 这 样 ， 整 个 网 络 的 复杂 性 就 是 基于 这 些 元 素 和 连接 
相 邻 层 的 数量 情况 。 

输入 和 输出 之 间 的 层 称 为 隐藏 层 ， 层 之 间 的 连接 密度 和 类 型 是 结构 (也 叫 配置 ) 。 例 如 ， 一 个 
完全 连接 的 结构 将 L 层 的 所 有 神经 元 连接 到 A 层 的 所 有 神经 元 。 若 要 具有 更 明显 的 结构 ， 我 们 
只 能 将 一 个 局 部 邻 域 连接 到 下 一 层 。 图 2-8 显示 了 两 个 具有 密集 连接 的 隐藏 层 。 
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输出 层 


(.)— 


2-8 ”神经 网 络 染 构 示例 图 


2.5 两 层 神 经 网 络 (多 层 感 知 器 ) 


2.5.1 简 述 


两 层 神经 网 络 是 本 文 的 重点 , 因为 正 是 从 两 层 结构 为 起 点 神经 网 络 才 开始 了 大 范围 的 推广 与 使 

用 。 

大 家 知道 ， 单 层 神经 网 络 无 法 解决 异 或 问题 ， 但 是 当 增 加 一 个 计算 层 以 后 ， 两 层 神经 网 络 不 仅 
可 以 解决 异 或 问题 ,而 且 有 具有 非常 好 的 非 线 性 分 类 效果 ,不 过 ,两 层 神 经 网 络 的 计算 则 是 一 个 问题 ， 
因为 没有 一 个 较 好 的 解法 。 

1986 年 ，Rumelhar 和 Hinton 等 人 提出 了 反问 传播 (Backpropagation，BP) 算法 ， 解 决 了 两 层 
神经 网 络 所 需要 的 复杂 计算 量 的 问题 ， 从 而 带动 了 业界 使 用 两 层 神经 网 络 研究 的 热潮 。 目 前 ， 大 量 
讲解 神经 网 络 的 教材 之 内 容 基 本 都 是 以 介绍 两 层 〈 带 一 个 隐藏 层 ) 神经 网 络 为 重点 。 

当时 的 Hinton 还 很 年 轻 ，30 年 以 后 ， 正 是 他 重新 定义 了 神经 网 络 ， 带 来 了 神经 网 络 复苏 的 又 
一 波 发 展 浪潮 。 


2.5.2 ”两 技 神 经 网 络 结构 


两 层 神经 网 络 除了 包含 一 个 输入 层 和 一 个 输出 层 以 外 ,还 增加 了 一 个 中 间 层 。 此 时 ， 中 间 层 和 
输出 层 都 是 计算 层 。 我 们 扩展 上 节 的 单 层 神经 网 络 ， 在 右边 新 加 一 个 层次 。 

现在 ， 我 们 的 权重 值 矩 阵 增加 到 了 两 个 ， 我 们 用 上 标 来 区 分 不 同 层 次 之 间 的 变量 。 

例如 ，az 代 表 第 y 层 中 的 第 x 个 节点 。z1,2z2 变 成 了 a?,a2。 图 2-9 给 出 了 a3, az 的 计算 公式 。 
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中 间 层 的 计算 公式 > 
al 一 f (ai Wiin +a Wian taz Wia) 


2 1 1 1 1 1 1 
a;—f(a;-w, 24)* 57 W(3,3)* 0 3^ W(.3)) 


2-9 ”两 层 神经 网 络 〈 中 间 层 计算 ) 
计算 最 终 输出 z 的 方式 是 利用 了 中 间 层 的 az az 和 第 二 个 权 值 矩阵 计算 得 到 的 ,如 图 2-10 所 示 。 


输出 层 的 计算 公式 。 > 


Z —f( di-W(uiy* Q5-W(12) 
图 2-10 两 层 神 经 网 络 〈 输 出 层 计 算 ) 
假设 我 们 的 预测 目标 是 一 个 向 量 ， 那 么 与 前 面 类 似 ， 只 需要 在 “输出 层 ” 再 增加 节点 即 可 。 


2.6 多 层 神 经 网 络 (深度 学 习 ) 
26.1 简 述 
人 工 神 经 网 络 在 被 人 据 弃 的 10 年 中 ， 有 几 个 学 者 仍然 在 坚持 研究 ， 其 中 的 典型 代表 就 是 加 拿 


大 多 伦 多 大 学 的 Geoffery Hinton 教授 。 
2006 年 ，Hinton 在 《Sciemrce》 和 相关 期 刊 上 发 表 了 论文 ， 首 次 提出 了 “深度 信念 网 络 ” 的 概 
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念 。 与 传统 的 训练 方式 不 同 ，“ 深 度 信 念 网 络 ” 有 一 个 “ 预 训 练 ” (Pre-Training) 的 过 程 ， 可 以 
方便 地 让 神经 网 络 中 的 权重 值 找到 一 个 接近 最 优 解 的 值 ， 之 后 再 使 用 “微调 ” (Fine-Tuning) 技术 
来 对 整个 网 络 进行 优化 训练 。 这 两 个 技术 的 运用 大 幅度 减少 了 训练 多 层 神经 网 络 的 时 间 。 他 给 多 层 
神经 网 络 相关 的 学 习 方 法 赋予 了 一 个 新 名 词 一 一 “深度 学 习 ”。 

很 快 ， 深 度 学 习 在 语 首 识别 领域 加 露头 角 。 接 着 ，2012 年 ， 深 度 学 习 技术 又 在 图 像 识 别 领 域 
KEH. Hinton 与 他 的 学 生 在 ImageNet 竞赛 中 用 多 层 的 卷 积 神经 网 络 成 功 地 对 包含 一 干 类 别 的 
一 百 万 张 图 片 进 行 了 训练 ， 取 得 了 分 类 错误 率 15% 的 好 成 绩 ， 这 个 成 绩 比 第 二 名 高 了 近 11 个 百 分 
点 ， 这 充分 证 明了 多 层 神 经 网 络 识别 效果 的 优越 性 。 

在 这 之 后 ， 关 于 深度 神经 网 络 的 研究 与 应 用 不 断 涌现 。 

关于 CNN (Conventional Neural Network, 卷 积 神经 网 络 ) 与 RNN (Recurrent Neural Network, 
循环 神经 网 络 ) 及 其 变 体 LSTM 的 架构 ， 我 们 会 在 后 面 的 章节 中 进行 单独 解读 ， 这 里 不 做 过 多 闻 
释 。 


2.6.2 ”多 层 神经 网 络 结构 


我 们 延续 两 层 神经 网 络 的 方式 来 设计 一 个 多 层 神经 网 络 。 
在 两 层 神 经 网 络 的 输出 层 后 面 ,继续 添加 层次 。 原 来 的 输出 层 变 成 中 间 层 ,新 加 的 层次 成 为 新 
的 输出 层 ， 可 以 得 到 图 2-11. 


图 2-11 多 层 神经 网 络 


依照 这 样 的 方式 不 断 添加 , 我 们 可 以 得 到 更 多 层 的 多 层 神 经 网 络 。 公式 推导 的 话 其 实 跟 两 层 神 
经 网 络 类 似 ， 使 用 和 矩阵 运算 的 话 就 仅仅 是 加 一 个 公式 而 已 。 


2.7 ”编码 器 -解码 器 网 络 


编码 器 -解码 器 CEncoder-Decoder) 网 络 使 用 一 个 网 络 来 创建 输入 的 内 部 表示 ， 或 者 对 其 进行 
“编码 ”， 并 且 该 表示 用 作 另 一 个 网 络 的 输入 以 产生 输出 。 这 有 助 于 超越 输入 的 分 类 。 最 终 和 输出 可 
以 是 相同 的 模 态 ， 即 语言 翻译 ， 或 基于 概念 的 不 同 模 态 ， 例 如 图 像 的 文本 标记 。 作 为 参考 ， 可 以 阅 
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读 谷 歌 团队 发 表 的 论文 “使 用 神经 网 络 进行 序列 学 习 ” (https://papers.nips.cc/paper/5346-sequence 
-to-sequence-learning-with-neural-networks.pdf) . 

编码 器 -解码 器 网 络 其 实 可 以 看 作 一 个 解决 问题 的 框架 ， 主 要 解决 seq2seq 类 问题 ，Sequence 
(序列 ) 在 这 里 可 以 理解 为 一 个 字符 串 序列 ， 当 我 们 在 给 定 一 个 字符 串 序列 后 , 希望 得 到 与 之 对 应 
的 男 一 个 字符 串 序列 ， 比 如 问答 系统 、 翻 译 系 统 。 

编码 器 -解码 器 网 络 的 流程 可 以 理解 为 “编码 一 存储 一 解码 ”这 一 流程 ， 可 以 用 人 脑 流程 来 类 
比 。 我 们 先 看 到 源 Sequence， 将 其 读 一 志 ， 然 后 在 我 们 大 脑 当 中 束 记 住 了 这 个 源 Sequence， 并 且 
存在 大 脑 的 某 一 个 位 置 上 ， 形 成 我 们 自己 的 记忆 “对 应 后 面 的 Context) ， 然 后 我 们 再 经 过 思考 ， 
将 这 个 大 脑 里 的 东西 转变 成 输出 ， 写 下 来 。 我 们 大 脑 读 入 的 过 程 叫 作 编码 器 CEncoder) ， 即 将 输 
入 的 东西 变 成 我 们 目 己 的 记忆 ， 放 在 大 脑 当 中 ， 而 这 个 记忆 可 以 叫 作 Context， 然 后 我 们 再 根据 这 
个 Context 转化 成 答案 写 下 来 ， 这 个 写 的 过 程 叫 作 解码 器 (Decoder) 。 

整个 模型 可 以 用 图 2-12 表示 。 


2-12 ”编码 器 -解码 器 (Encoder-Decoder) 网 络 架 构 


2.8 PEME NE 


几乎 所 有 优化 问题 的 解决 方案 都 是 梯度 下 降 算 法 。 它 是 一 种 迭代 算法 , 通过 随后 更 新 函数 的 参 
数 来 最 小 化 损失 函数 。 

从 图 2-13 中 可 以 看 到 ， 我 们 首先 把 函数 想象 成 一 种 山谷 ， 想 象 一 个 球 滚 下 山谷 斜坡 的 情形 。 
日 常生 活 经 验 告 诉 我 们 ， 球 最 终 会 滚 到 谷底 。 也 许 我 们 可 以 用 这 个 方法 求 出 损失 函数 的 最 小 值 。 

我 们 这 里 使 用 的 函数 依赖 于 两 个 变量 : v1 和 v2。 这 可 能 是 显而易见 的 ， 因 为 我 们 的 损失 函数 
看 起 来 像 前 面 的 那个 。 为 了 达到 这 样 一 个 平滑 的 损失 函数 ， 我 们 取 二 次 损失 : 


(y - | sed 2 
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图 2-13 BR FARRAR 


同样 ,我 们 应 该 注意 到 二 次 损失 函数 只 是 一 种 方法 ,其 实 还 有 许多 其 他 方法 来 定义 损失 。 但 不 
管 选 择 哪 种 方法 ， 最 终 ， 我 们 选择 不 同 损失 函数 的 目的 是 为 了 得 到 : 


CD 对 权重 值 的 平滑 偏 导数 。 
(2) 一 个 良好 的 凸 曲线 ， 可 以 达到 全 局 最 小 值 。 然 而 ， 在 寻找 全 局 最 小 值 时 ， 还 有 许多 其 他 
因素 也 在 发 挥 作 用 。 


我 们 随机 选择 一 个 (假想 的 ) 球 的 起 点 ， 然 后 模拟 球 在 同 下 滚动 到 山谷 底部 时 的 运动 。 与 之 类 
比 的 情景 中 ， 假 设 我 们 初始 化 网 络 的 权重 值 ， 或 者 一 般 来 说 ,在 曲线 上 的 某 个 任意 点 上 初始 化 函数 
的 参数 就 像 在 斜坡 的 任何 一 点 上 放 一 个 球 )， 然 后 检查 附近 的 斜率 (导数 )。 

我 们 知道 ， 由 于 重力 的 作用 ， 球 会 朝 着 最 大 坡度 的 方 癌 下落。 同样 ， 在 该 点 沿 导 数 方 问 移动 权 
重 值 ， 并 根据 以 下 规则 更 新 权重 值 : 


设 Jow) = 成 本 作为 权重 值 的 函数 , w = 网 络 参 数 (y1 和 v2) , wi= 初 始 权 重 值 集 (随机 初始 化 ) 。 
Wupdate — Wi 一 nd] (w)/dw 


XE, dJ(wydw 为 权重 值 w 对 J(w)R ue. n 是 学 习 率 (Learning Rate) . 

学 习 率 更 多 的 是 一 个 超 参数 , 这 里 虽然 没有 固定 的 方法 来 找到 最 合适 的 学 习 率 , 但 是 我 们 总 是 
可 以 通过 批量 损失 来 找到 它 。 

一 种 方法 是 看 到 损失 并 分 析 损 失 的 模式 ,一 般 来 说 , 较 差 的 学 习 率 会 导致 小 批量 的 不 稳定 损失 。 
E GRR) 可 以 递归 地 上 升 和 下 降 ， 而 不 需要 稳定 。 

图 2-14 给 出 了 一 个 更 直观 的 解释 。 
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2-14 ”小 型 和 大 型 学 习 率 影响 的 示意 图 


在 图 2-14 中 ， 有 两 种 情况 : 情景 1， 小 的 学 习 速率 ; 情景 2， 大 的 学 习 速 率 。 我 们 的 目标 是 为 
了 达到 图 2-14 中 的 最 小 值 ， 所 以 必须 达到 谷底 〈 就 像 图 2-13 中 球 的 情况 那样 ) 。 学 习 率 则 与 球 滚 
下 山 时 的 跳跃 幅度 有 关 。 

首先 考虑 情景 1 (图 2-14 中 的 左 侧 部 分 )， 我 们 在 其 中 进行 小 的 跳跃 ， 逐 渐 继续 癌 下 演 动 ， 
慢 慢 地 ， 最终 达到 最 小 值 ， 而 球 有 可 能 卡 在 路 上 的 一 些小 缝 际 中 ,并 且 由 于 无 法 进行 大 跳跃 而 无 法 

在 情景 2( 图 的 右 侧 部 分 ) 中 ， 与 曲线 的 斜率 相 比 ， 学 习 速 率 更 大 。 这 是 一 个 次 优 的 策略 ， 实 
际 上 可 能 将 我 们 从 山谷 中 驱逐 出 去 , 在 某 些 情 况 下 ,这 可 能 是 一 个 良好 的 开端 ， 可 以 摆脱 局 部 极 小 
的 范围 ， 但 如 果 我 们 跳 过 全 局 最 小 值 ， 就 会 让 人 对 其 感到 失望 。 

在 图 2-14 中 ， 我 们 实现 了 局 部 最 小 值 ， 但 这 只 是 一 个 例子 。 这 意味 着 权重 值 会 停留 在 局 部 最 
小 值 上 而 错过 全 局 最 小 值 。 梯度 下 降 或 随机 梯度 下 降 不 保证 能 够 收 伍 到 神经 网 络 的 全 局 最 小 值 CI 
设 隐 藏 单 元 不 是 线性 的 ) ， 因 为 损失 函数 是 非 凸 性 的 。 理 想 情 况 是 阶 跃 〈 步 长 ) 继续 变化 并 且 拥 有 
更 有 具 适 应 性 的 特点 ， 在 起 初时 可 以 略 高 ， 然 后 在 一 段 时 间 内 逐渐 减 小 ， 直 到 收敛 为 止 。 


29 反 回 传播 


理解 反 回 传播 (Backpropagation ) 算法 可 能 需要 一 些 时 间 ， 读 者 也 可 以 跳 过 本 节 内 容 ， 因 为 很 
多 软件 库 都 有 具有 自动 区 分 和 执行 整个 训练 过 程 的 能 力 。 但 是 , 理解 这 个 算法 肯定 会 让 你 深入 了 解 与 
深度 学 习 相关 的 问题 (学习 问题 、 缓 慢 学 习 、 梯 度 爆 炸 、 梯 度 下 降 )。 

让 我 们 首先 看 一 张 典 型 的 神经 网 络 结构 图 ， 如 图 2-15 所 示 。 
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Layer L, Layer L, 


图 2-15 神经 网 络 结构 图 


图 2-15 是 一 个 包含 了 输入 层 LI. 隐藏 层 L2 和 输出 层 L3 的 简单 神经 网 络 , 它 的 处 理 流程 为 根 
据 输 入 层 的 input 以 及 相应 的 权重 值 和 配置 〈 图 中 黑色 带 箭 头 的 边 ) ， 通 过 隐藏 层 的 加 工 ， 最 终 将 
结果 映射 到 和 输出 层 得 到 结果 的 输出 。 模 型 可 以 抽象 表示 为 y = f Qe)» xy 分 别 表 示 输 入 和 输出 回 量 。 

根据 神经 网 络 的 处 理 流 程 ， 我 们 如 果 要 得 到 输出 y， 融 必须 知道 图 2-15 中 每 条 边 的 参数 值 ， 这 
也 是 神经 网 络 中 最 重要 的 部 分 。 在 神经 网 络 中 是 通过 迭代 的 方法 来 计算 这 些 参数 的 , 具体 来 讲 就 是 ， 
首先 初始 化 这 些 参数 ， 通 过 神经 网 络 的 前 向 传导 过 程 来 计算 得 到 输出 y， 但 这 些 值 与 真实 值 存在 着 
误差 .我 们 假设 累计 误差 函数 为 err(x)， 然 后 利用 梯度 方法 极 小 化 err(x) 来 更 新 参数 ， 直 至 误差 值 
达到 符合 要 求 而 停止 计算 。 在 更 新 参数 这 一 过 程 中 ， 我 们 就 用 到 了 著名 的 反问 传播 算法 。 

为 了 更 好 地 去 说 明神 经 网 络 的 传播 算法 ， 我 们 这 里 取 图 2-15 中 的 一 条 路 径 来 做 说 明 ， 但 这 不 
失 一 般 性 ， 假 设 路 径 如 图 2-16 所 示 。 


Q 0 
AAA N 
T3203 
VA LA 
R 2-16 神经 网 络 传播 路 径 示例 


图 2-16 中 的 边 表示 偶 导 数 ， 如 w = (3 Y/3 X). 
想 要 知道 输入 X 对 输出 Z 的 影响 ， 我 们 可 以 用 偏 导 数 (0 Z/0 X) = (02Z/9Y): (0Y/9 X). HI: 


(0 Z/0 X) = aó + ae + aC + Bó t Be t BC yó +ye +y (2.5) 


我 们 如 果 直 接 使 用 链 式 法 则 进行 求 导 就 会 遇 到 一 个 问题 ， 当 路 径 数量 增加 时 ， 式 《〈2.5) 中 的 
子 项 目 数 会 呈 指 数 增长 ， 所 以 这 时 我 们 需要 把 上 式 右 侧 部 分 进行 合并 , 合并 后 ， 我 们 只 需要 进行 一 
次 乘法 就 可 以 获得 所 需要 的 结果 ， 这 样 大 幅度 提升 了 模型 的 运算 效率 ， 合 并 后 的 式 子 如 下 : 


(GZ/0X)= (a - B t- y)(ó - e Q) (2.6) 
接 下 来 ， 我 们 解决 式 (2.60 的 实现 问题 。 根 据 计 算 方 问 的 不 同 ， 可 以 分 为 正 问 微分 与 反 回 微 


分 。 我 们 先 看 针对 图 2-16 的 正 同 微分 算法 ， 如 图 2-17 所 示 。 


Forward-Mode Differentiation (ax) 
—————— 
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C a t B vy)y(6 o e-C) 
Nel Ne 


R 2-17 正 向 微分 算法 


可 以 看 到 , 正 同 微分 算法 根据 路 径 的 传播 方 问 , 依次 计算 路 径 中 的 各 结 点 对 输入 XX 的 偏 导 数 ， 
结果 中 保留 了 输入 对 各 结 点 的 影响。 


下 面 ， 我 们 看 一 下 反问 微分 算法 ( 见 图 2-18) 。 


Reverse-Mode Differentiation (22) 
所 一 一 


Q Ó 
Phi ae 
ðZ 
OX — DA è OR ðZ -1 
U y ~ OY - OZ 


R 2-18 反 向 微分 算法 
可 以 看 到 ， 该 算法 从 后 向 前 进行 计算 ， 结 果 中 保留 了 路 径 中 各 结 点 对 输出 的 影响 。 
这 里 就 有 一 个 问题 了 ， 既 然 正 向 反 向 都 可 以 实现 式 (2.6) 的 计算 ， 那 么 我 们 应 该 选择 哪个 算 
法 来 实现 呢 ? 答案 是 反 辕 微分 算法 ， 理 由 如 下 : 
首先 我 们 看 一 个 计算 式 子 e = (a 十 b)*(b 十 1) 的 图 模型 (WE 2-19) 。 


图 2-19 ”图 模型 计算 示例 


RHE, cd 表示 中 间 结 果 ， 边 的 方 癌 表示 一 个 结 点 是 另 一 个 结 点 的 输入 。 
假设 输入 变量 a=2、b=1， 图 2-19 中 各 结 点 的 偏 导 计算 结果 如 图 2-20 所 示 。 
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图 2-20 利用 正 向 微分 算法 得 到 各 结 点 的 偏 导 计算 结果 
利用 正 癌 微分 算法 ， 我 们 得 到 关于 变量 b 的 俩 导 计算 结果 如 图 2-21 所 示 。 


2-21 利用 正 向 微分 算法 得 到 变量 b 的 偏 导 计算 结果 
利用 反 癌 微分 算法 ， 我 们 得 到 的 偏 导 计算 结果 如 图 2-22 所 示 。 


图 2-22 利用 反 向 微分 算法 得 到 的 偏 导 计算 结果 


由 此 可 见 , 反问 微分 算法 保留 了 所 有 变量 (包括 中 间 变 量 ) 对 结果 e 的 影响 。 大 e 为 误差 函数 ， 
则 对 图 进行 一 次 计算 ,可 以 得 出 所 有 结 点 对 e 的 影响 ,也 就 是 梯度 值 ， 下 一 步 就 可 以 利用 这 些 梯度 
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值 来 更 新 边 的 权重 值 了 ; 而 正 同 微分 算法 得 到 的 结果 是 只 保留 了 一 个 输入 变量 对 误差 e 的 影响 ， 显 
然 ， 想 要 获得 多 个 变量 对 e 的 影响 ,我 们 就 需要 进行 多 次 计算 。 所 以 正 回 微 分 算法 在 效率 上 明显 不 
如 反 回 微分 ， 这 也 是 我 们 选择 反 回 微分 算法 的 原因 。 


2.10 总结 


在 本 章 , 我 们 首先 对 深度 学 习 的 理念 和 产生 的 历史 背景 做 了 说 明 , 认识 到 深度 学 习 在 人 工 智能 
当中 起 到 非常 重要 的 作用 。 

其 次 , 我 们 为 了 对 深度 学 习 的 内 部 原理 进行 解读 ,介绍 了 其 中 的 关键 部 分 一 一 神经 元 模型 。 
过 神经 元 模型 的 解读 ， 我 们 对 深度 学 习 的 基本 结构 有 了 认 知 。 

接着 ， 我 们 从 单 层 神经 网 络 、 多 层 神经 网 络 和 Encoder-Decoder 网 络 等 方面 对 于 深度 学 习 的 内 
部 网 络 结构 进行 了 更 深层 次 的 解析 , 对 其 内 部 逻辑 和 机 制 运行 情况 有 了 大 致 清晰 的 认 知 。 因 为 现实 
中 的 问题 一 般 都 非常 复杂 , 怎样 选择 一 个 高 效 的 优化 算法 便 成 为 我 们 着 重 关 注 的 方法 , 所 以 我 们 就 
介绍 了 随机 梯度 下 降 算法 。 

最 后 ， 我 们 介绍 了 著名 的 反 向 传播 算法 (BP) ， 从 数学 的 角度 做 简要 解读 ， 使 我 们 认识 到 反 
向 传播 算法 的 魅力 所 在 ， 为 我 们 进一步 学 习 深 度 学 习 或 者 说 神经 网 络 模型 商定 了 良好 的 基础 。 

下 一 章 ， 我 们 将 介绍 本 书 所 使 用 的 技术 框架 : TensorFlow。 


TensorFlow 


在 本 章 中 ， 首 先 我 们 会 对 TensorFlow 的 概念 、 主 要 特征 、 安 装 及 其 三 个 组 成 部 分 进行 详细 解 
读 ， 横 理 出 这 些 核心 概念 之 间 的 关系 。 其 次 ， 在 了 解 了 一 些 核 心 概念 之 后 ， 我 们 会 对 TensorFlow 
的 工作 原理 进行 深度 解析 ， 将 TensorFlow 平台 的 “client 一 master 一 worker” 架 构 底 层 中 涉及 到 的 
内 在 逻辑 和 技术 路 径 进 行 详细 解读 , 以 便 我 们 对 TensorFlow 框架 的 运行 机 制 有 更 多 的 认 知 。 接 着 ， 
我 们 会 利用 示例 对 TensorFlow 客户 端 进行 专门 解读 ， 读 者 会 在 示例 中 感受 TensorFlow 客户 端 内 在 
的 运行 情况 。 然 后 ， 我 们 会 对 TensorFlow 中 的 常见 元 素 逐 一 详解 ， 并 做 一 些 对 比分 析 。 最 后 ， 我 
们 对 TensorFlow 的 变量 作用 域 机 制 做 一 些 介绍 , 并 实现 一 个 三 层 神经 网 络 对 MNIST 数字 数据 集 进 
行 分 类 的 例子 。 

本 章 中 涉及 的 完整 代码 ， 请 查看 文件 夹 ch3 下 的 代码 文件 : 3 tensorflow introduction.ipynb. 


3.1 TensorFlow 概念 解读 


由 于 深度 学 习 研 究 的 最 终 目 的 是 为 了 解决 我 们 现实 世界 中 过 到 的 困难 , 因此 在 学 术 界 不 断 探 索 
新 理念 、 新 模型 的 同时 ， 业 界 优秀 的 从 业 人 员 也 在 加 速 发 布 各 类 可 实现 的 技术 框架 ， 这 样 深度 学 习 
框架 就 在 学 术 界 和 工业 界 的 相互 推动 下 得 以 迅速 发 展 起 来 .这 里 给 出 谷歌 公司 经 过 长 期 的 研究 和 尝 
试 ， 在 实践 的 基础 上 推出 的 目前 最 优秀 的 深度 学 习 框架 之 一 一 一 TensorFlow。TensorFlow 最 初 是 
由 谷歌 公司 的 大 脑 小 组 〈 隶 属于 谷歌 机 器 智能 研究 机 构 ) 的 研究 员 和 工程 师 们 开发 出 来 的 ， 是 一 个 采 
用 数据 流 图 (Data Flow Graph) 的 开源 分 布 式 数值 计算 框架 ， 主 要 用 于 减轻 实现 神经 网 络 细 节 层 面 的 
工作 量 (例如 , 计算 神经 网 络 权 重 值 的 导数 ) 。TensorFlow 通过 使 用 统一 计算 设备 架构 (Compute Unified 
Device Architecture, CUDA) 对 数值 进行 有 效 计算 ， 该 架构 是 由 NVIDIA 公司 引入 的 并 行 计算 平台 。 

TensorFlow 主要 是 由 计算 图 、 张 量 以 及 模型 会 话 三 个 部 分 组 成 的 。TensorFlow 中 的 计算 可 以 
表示 为 一 个 计算 图 (Computation Graph) ， 或 者 称 作 有 回 图 (Directed Graph) ， 图 中 的 每 一 个 数 
学 运算 或 操作 COperation ) 都 将 被 视 为 一 个 节点 (Node), 而 节点 与 节点 之 间 的 连接 被 称 为 边 (Edge )， 
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图 中 的 这 些 边 (Edge) 则 表示 在 节点 间 相 互 关 联 的 流动 (Flow ) 的 多 维 数据 数组 , 即 张 量 (Tensor) 。 
这 个 计算 图 表述 了 数据 的 计算 流程 , 它 负 责 维护 和 更 新 状态 , 我 们 可 以 对 计算 图 中 的 分 文 进行 条 件 
控制 或 循环 操作 。 简单 说 , 我 们 可 以 用 张 量 表示 数据 , 用 计算 图 搭建 神经 网 络 , 用 会 话 执 行 计算 图 ， 
在 优化 线 上 的 权重 值 〈 参 数 ) 后 得 到 我 们 的 模型 。 

这 里 ， 我 们 还 可 以 使 用 多 种 语言 对 计算 图 进行 设计 。TensorFlow 这 样 灵活 的 架构 让 我 们 可 以 
在 多 种 平台 上 展开 计算 , 例如 台式 计算 机 中 的 一 个 或 多 个 CPU (或 GPU)、 服 务 器 、 移动 设 备 等 。 
作为 优秀 的 技术 架构 ，TensorFlow 在 机 器 学 习 方 面 解决 了 以 下 几 个 核心 问题 : 


(1) 使 用 TensorFlow 工具 可 以 利用 很 简洁 的 语言 来 实现 各 类 复杂 算法 模型 ， 这 样 一 来 ,我 们 
就 可 以 从 日 常 中 极为 消耗 精力 的 编码 、 调 试 工作 中 解放 出 来 。 

(2) 由 于 TensorFlow 内 核 执 行 系统 使 用 的 是 C++， 因 此 在 执行 效率 方面 非常 高 效 。 

(3) TensorFlow 极 佳 的 分 层 架 构 使 得 模型 能 够 很 方便 地 运行 在 异 构 设 备 之 上 。 

(4) TensorFlow 包含 了 TensorBoard 等 极 好 的 配套 工具 ， 且 第 三 方 社区 也 在 不 断 贡 献 很 多 实 
用 的 辅助 工具 ， 例 如 TFLearn 等 ， 这 些 工 具 使 得 代码 变 得 更 加 简洁 、 数 据 处 理工 作 更 便捷 。 


如 果 读 者 感 兴趣 ， 可 以 参考 下 面 的 网 址 以 查阅 关于 TensorFlow 方面 的 内 容 。 


€  TensorFlow 'E |]:  tensorflow.google.cn. 

€  TensorFlow 的 应 用 程序 编程 接口 ( API) : tensorflow.google.cn/api docs/python. 
@  GitHub 网 址 : github.com/tensorflow. 

e 模型 仓库 : github.com/tensorflow/models. 


3.2 TensorFlow 主要 特征 


3.2.1 自动 求 微分 


基于 梯度 的 机 器 学 习 算 法 会 受益 于 TensorFlow 上 自动 求 微分 的 能 力 。 在 使 用 TensorFlow 时 ， 我 
们 只 需要 定义 预测 模型 的 结构 ， 将 这 个 结构 和 目标 函数 《Objective Function? 结合 在 一 起 ， 并 添加 
数据 ，TensorFlow 将 自动 为 我 们 计算 相关 的 微分 导数 。 计 算 某 个 变量 相对 于 其 他 变量 的 导数 仅仅 
是 通过 扩展 你 的 计算 图 来 完成 的 ， 所 以 我 们 可 以 一 直 很 清晰 地 看 到 系统 中 究竟 在 发 生 什么 。 


322 ”多 语言 支持 


TensorFlow 有 一 个 合理 的 C++ 使 用 界面 ， 也 有 一 个 易 用 的 Python 使 用 界面 来 构建 和 执行 我 们 
的 计算 图 (Computation Graph) 。 我 们 可 以 直接 编写 Python/C++ 程 序 ， 也 可 以 用 交互 式 的 了 Python 
界面 来 调用 TensorFlow 以 尝试 一 些 想 法 , 它 可 以 帮 我 们 将 笔记 、 代码 、 可 视 化 等 有 条 理 地 归 置 好 。 
当然 这 仅仅 是 一 个 起 点 ， 它 同时 也 在 促使 我 们 创造 自己 最 喜欢 的 语言 界面 ， 比 如 Go. Java. Lua. 
JavaScript、R 等 。 
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3.23 高度 的 灵活 性 


TensorFlow 不 是 一 个 严格 意义 上 的 “神经 网 络 ” 库 。 如 果 我 们 能 够 将 计算 表示 为 一 个 数据 流 
图 ， 那 么 就 可 以 使 用 TensorFlow 来 构建 图 和 描写 驱动 计算 的 内 部 循环。TensorFlow 提供 了 有 用 的 
工具 来 帮助 你 组 装 “ 子 图 ”【〔 常 用 于 神经 网 络 ) ， 当 然 用 户 也 可 以 自己 在 TensorFlow 基础 上 编写 
目 己 的 “上 层 库 ”。 定 义 顺手 好 用 的 新 复合 操作 和 编写 一 个 Python 函数 一 样 容易 ， 而 且 也 不 用 担 
心性 能 损耗 。 当 然 万 一 我 们 发 现 找 不 到 想 要 的 底层 数据 操作 ， 我 们 也 可 以 目 己 编写 一 点 C++ 代码 
来 丰富 底层 的 操作 。 


3.2.4 真正 的 可 移植 性 


TensorFlow 在 CPU 和 GPU 上 运行 ， 比 如 说 可 以 运行 在 台式 机 、 服 务 器 、 移 动 设备 等 上 面 。 
在 没有 特殊 硬件 的 前 提 下 ，TensorFlow 能 够 帮 我 们 在 自己 的 笔记 本 上 运行 一 下 机 器 学 习 、 深 度 学 
习 模 型 。TensorFlow 也 可 以 帮助 我 们 将 自己 的 训练 模型 在 多 个 CPU 上 进行 规模 化 的 运算 ， 同 时 不 
必修 改 代码 。TensorFlow 还 可 以 帮助 我 们 将 自己 训练 好 的 模型 作为 产品 的 一 部 分 部 署 到 手机 App 
里 。TensorFlow 更 可 以 帮助 我 们 将 目 己 的 模型 作为 云端 服务 运行 在 自己 的 服务 器 上 ， 或 者 运行 在 
Docker 725 B. 


3.25 将 科研 和 产品 联系 在 一 起 


过 去 ， 要 将 科研 中 的 机 器 学 习 想 法 用 到 产品 中 ， 需 要 大 量 的 代码 重 写 工作 。 现 在 ， 谷 歌 公 司 的 
科学 家 用 TensorFlow 尝试 新 的 算法 ， 产 品 团队 则 用 TensorFlow 来 训练 和 使 用 计算 模型 ， 并 直接 提 
供给 在 线 用 户 。 使 用 TensorFlow 可 以 让 应 用 型 研究 者 将 想法 迅速 地 运用 到 产品 中 ， 也 可 以 让 学 术 
性 研究 者 更 直接 地 彼此 分 享 代 码 ， 从 而 提高 科研 产 出 率 。 


3.2.6 ”性 能 最 优化 


例如 ， 现 在 你 有 一 个 带 有 32 个 CPU 内 核 、4 个 GPU 显卡 的 工作 站 ， 就 可 以 利用 TensorFlow 
将 工作 站 的 计算 潜能 全 部 发 挥 出 来 。TensorFlow 给 予 了 线程 、 队 列 、 异 步 操作 等 最 佳 的 文 持 ， 能 
够 让 我 们 将 自己 手边 硬件 的 计算 潜能 全 部 发 挥 出 来 。 我 们 可 以 自由 地 将 TensorFlow 图 中 的 计算 元 
素 分 配 到 不 同 设备 上 ， 让 TensorFlow 帮 有 我 们 管理 好 这 些 不 同 的 副本 。 


3.3 TensorFlow 安装 


我 们 可 以 在 多 个 平台 上 安装 和 使 用 TensorFlow， 例 如 Linux. Mac OS 和 Windows。 当 然 ， 我 
们 也 可 以 使 用 TensorFlow 最 新 的 GitHub 源 来 构建 和 安装 TensorFlow。 此 外 ， 如 果 我 们 的 电脑 运行 
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的 是 Windows 系统 ， 那 么 比较 常用 的 是 通过 Anaconda 来 安装 TensorFlow. 
由 于 Python 3 附带 了 pip3 包 管 理 器 ， 它 是 用 于 安装 TensorFlow 的 程序 ， 因 此 如 果 我 们 使 用 的 
是 Python 的 这 个 版 本 ， 就 无 须 安装 pip。 为 简单 起 见 ， 在 本 节 中 将 展示 如 何 使 用 本 机 pip 安装 
TensorFlow。 下 面 给 出 在 Windows 系统 下 安装 TensorFlow 的 两 个 命令 。 局 动 一 个 “终端 ”程序 ， 
然后 在 该 “终端 ”中 执行 相应 的 pip3 install 命令 。 
(1) 要 安装 TensorFlow 的 CPU 版 本 ， 输 入 以 下 命令 : 


C:\> pip3 install --upgrade tensorflow 


(2) 要 安装 TensorFlow 的 GPU 版 本 ， 输 入 以 下 命令 : 


C:\> pip3 install --upgrade tensorflow-gpu 


在 Linux Jj Ifi], TensorFlow Python API X: f£ Python 2.7 AI Python 3.3, 因此 我 们 需要 安装 Python 
才能 启动 TensorFlow 安装 。 我 们 必须 安装 Cuda Toolkit 7.5 和 cuDNN v5.1 + 才能 获得 GPU 支持 。 
笔者 使 用 的 是 Ubuntu 系统 ， 是 采用 pip3 的 命令 来 安装 TensorFlow 的 ， 更 多 信息 也 可 以 参考 
https://tensorflow.google.cn/install/'source 上 的 说 明 。 


在 Linux 上 安装 TensorFlow 


这 里 将 给 出 如 何在 Ubuntu 14.04 或 更 高 版 本 上 安装 TensorFlow。 此 处 提供 的 说 明 可 能 也 适用 
F Linux 其 他 版 本 ， 只 需 进行 少量 的 调整 即 可 。 

但 是 ， 在 继续 执行 正式 步骤 之 前 ， 我 们 需要 确定 在 平台 上 安装 哪个 TensorFlow， 我 们 可 以 在 
GPU 和 CPU 上 运行 数据 密集 型 张 量 应 用 程序 。 因 此 ， 应 该 选择 以 下 TensorFlow 两 种 版 本 中 的 一 
个 ， 在 我 们 的 平台 上 进行 安装 : 

e 仅 支 持 CPU 的 TensorFlow: 如 果 计 算 机 上 没有 安装 NVIDIA 等 GPU, 就 必须 使 用 此 版 本 

安装 并 开始 计算 。 这 个 很 简单 ， 可 以 在 5 到 10 分 钟 内 完成 。 

@ 支持 GPU 的 TensorFlow: 深度 学 习 应 用 程序 通常 需要 非常 高 的 计算 资源 ，TensorFlow 也 

不 例外 ， 我 们 通常 可 以 在 GPU 上 而 不 是 在 CPU 上 加 快 数据 计算 和 分 析 速 度 。 如 果 你 的 
计算 机 上 有 NVIDIAGPU 硬件 ， 你 应 该 安装 并 使 用 此 版 本 。 


根据 我 们 的 经 验 ， 即 使 计算 机 上 集成 了 NVIDIA GPU 硬件 ， 也 有 必要 安装 并 首先 尝试 仅 使 用 
CPU 的 版 本 ， 如 果 你 没有 体验 到 良好 的 性 能 ， 那 么 再 切换 到 GPU 来 进行 支持 。 
支持 GPU 的 TensorFlow 版 本 有 几 个 要 求 ,例如 64 位 Linux, Python 2.7( 或 Python 3 的 3.34, 
NVIDIACUDA7.5 或 更 高 版 本 (Pascal GPU 需要 CUDA 8.0) 和 NVIDIA cuDNN v4.0 (最 小 ) && v5.1 
(推荐 ) 。 更 具体 地 说 ，TensorFlow 的 当前 开发 仅 文 持 使 用 NVIDIA 工具 包 和 软件 的 GPU 计算 。 
因此 ， 必 须 在 Linux 计算 机 上 安装 以 下 软件 才能 使 得 预测 分 析 应 用 程序 获得 GPU 的 文 持 : 


€ Python 
€  NVIDIA Driver 
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€ CUDA with compute capability >= 3.0 
€ CUDNN 


©  TensorFlow 

1. 安装 Python 和 NVIDIA 驱动 程序 

在 不 同 的 平台 上 安装 Python 的 操作 相对 比较 简单 ， 这 里 不 再 袭 述 。 另 外 ， 假 设 你 的 计算 机 中 
己 经 安装 了 NVIDIA GPU. 

要 检查 一 下 你 的 计算 机 中 的 GPU 是 否 已 正确 安装 和 正常 工作 ， 请 在 终端 上 执行 以 下 命令 : 

$ lspci -nnk | grep -i nvidia 

由 于 预测 分 析 很 大 程度 上 依赖 于 机 器 学 习 和 深度 学 习 算法 , 因此 请 确保 你 的 计算 机 上 安装 了 一 
些 基 本 软件 包 ， 例 如 GCC 和 一 些 用 于 科学 计算 的 Python 软件 包 。 

只 需 在 终端 上 执行 如 下 命令 : 


sudo apt-get update 
sudo apt-get install libglul-mesa libxi-dev libxmu-dev -y 


$ 

$ 

$ sudo apt-get — yes install build-essential 

$ sudo apt-get install python-pip python-dev -y 
$ 


sudo apt-get install python-numpy python-scipy -y 


现在 通过 wget F NVIDIA 驱动 程序 (不 要 忘记 为 你 的 计算 机 选择 正确 的 版 本 ) , JL silent 
运行 脚本 : 

$ wget 
http://us.download.nvidia.com/XFree86/Linux-x86 64/367.44/NVIDIA-Linux-x86 64- 
367.44.run 


$ sudo chmod +x NVIDIA-Linux-x86 64-367.35.run 

$ ./NVIDIA-Linux-x86 64-367.35.run --silent 

一 些 GPU 显卡 ， 如 NVidia GTX 1080， 附 带 内 置 驱 动 程序 。 因 此 ， 如 果 你 的 计算 机 具有 不 同 
T GTX 1080 的 GPU， 就 必须 下 载 该 GPU 的 驱动 程序 。 

要 确保 驱动 程序 是 否 己 正 确 安装 ， 请 在 终端 上 执行 以 下 命令 : 


S nvidia-smi 


命令 的 结果 应 如 图 3-1 所 示 。 


第 3 章 TensorFlow | 37 


:^$ nvidia-smi 
Wed Sep 27 00:58:45 2017 


t $ 
GPU Name Persistence-M| Bus- Id Disp.A | Volatile Uncorr. ECC 
Fan Temp Perf Pwr:Usage/Cap 


^ 

| NVIDIA-SMI 384, Driver Version; 384, 
| 

| 

| 


| Memory-Usage | GPU-Util Compute M. 
+ 

0 Tesla K80 Off | 00000000:00:1E.0 Off | 
N/A X 48C PO S9W / 149W | OMiB / 11439MiB | 


图 3-1 nvidia-smi 命令 的 输出 结果 
2. 安装 NVIDIA CUDA 


为 了 将 TensorFlow 5 NVIDIA GPU 配合 使 用 , 需要 安装 CUDA Toolkit 8.0 及 其 相关 的 NVIDIA 
驱动 程序 。CUDA 工具 包 包 括 : 


GPU 加 速 库 ， 如 用 于 快速 全 里 叶 变 换 的 cuFFT (FFT). 
基本 线性 代数 子 程序 (BLAS ) 的 cuBLAS。 

T 3. AB -5]32 à cuSPARSE. 

A TA ETRAS 5,65] ARA 28 6] cuSOLVER. 

用 于 随机 数 生成 的 cuRAND， 用 于 图 像 的 NPP 和 视频 处 理 原 语 。 
NVIDIA 图 形 分 析 库 的 nvGRICH. 

推力 模板 并 行 算 法 和 数据 结构 专用 的 CUDA 数学 库 。 


对 于 Linuxz， 下 载 和 安装 所 需 的 包 : 
https://developer.nvidia.com/cuda-downloads 
使 用 的 wget 命令 如 下 : 


$ wget https://developer.nvidia.com/compute/cuda/8.0/Prod2/local 
installers/cuda 8.0.61 375.26 linux-run 

$ sudo chmod +x cuda 8.0.61 375.26 linux.run 

$ ./ cuda 8.0.61 375.26 linux.run --driver --silent 

$ ./ cuda 8.0.61 375.26 linux.run --toolkit --silent 
5 


./ cuda 8.0.61 375.26 linux.run --samples -silent 
另外 ， 确 保 你 已 经 将 CUDA 安装 路 径 添 加 到 LD LIBRARY PATH 环境 变量 中 : 


$ echo 'export LD LIBRARY PATH="SLD LIBRARY PATH:/usr/local/cuda/lib64:/ 
usr/local/cuda/extras/CUPTI/lib64"' >> -/.bashrc 
$ echo 'export CUDA HOME-/usr/local/cuda' >> «/.bashrc 


$ source ~/ .bashrc 
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3. 安装 NVIDIA cuDNN v5.1+ 


安装 CUDA Toolkit 后 ,从 Linux 上 下 载 cuDNN v5.1 库 ,解压 缩 文件 并 将 其 复制 到 CUDA Toolkit 
目录 (假设 在 / usr / local / cuda/ 中 ): 


$ cd /usr/local 

$sudo mkdir cuda 

$ cd ~/Downloads/ 

$ wget http://developer2.download.nvidia.com/compute/machine-learning/ 
cudnn/secure/v6/prod/8.0 20170427/cudnn-8.0-1linux-x64-v6.0.tgz 

S sudo tar -xvzf cudnn-8.0-linux-x64-v6.0.tgz 

$ cp cuda/lib64/* /usr/local/cuda/lib64/ 

$ cp cuda/include/cudnn.h /usr/local/cuda/include/ 


注意 ， 要 安装 cuDNN v5.1 库 ， 我 们 必须 在 https://developer.nvidia.com/accelerated-computing- 
developer 上 注册 加 速 计算 开发 程序 。 现 在 ， 当 安装 了 cuDNN v51 库 之 后 ， 请 确保 创建 了 
CUDA HOME 环境 变量 。 


4. 安装 libcupti-dev JÆ 


最 后 ， 需 要 在 你 的 计算 机 上 安装 libeupti-dev 库 ， 这 是 提供 高 级 分 析 文 持 的 NVIDIA CUDA. 
要 安装 此 库 ， 请 执行 以 下 命令 : 

$ sudo apt-get install libcupti-dev 

5. 安装 TensorFlow 


有 关 如 何 为 CPU 安装 最 新 版 本 的 TensorFlow， 以 及 如 何 为 具有 NVIDIA . cuDNN 和 CUDA 
计算 能 力 的 GPU 提供 文 持 ， 请 参阅 下 面 的 部 分 。 可 以 在 计算 机 上 以 多 种 方式 安装 TensorFlow， 比 
如 使 用 virtualenv、pip、Docker 和 Anaconda。 这 里 使 用 pip 和 virtualenv 方式 。 (有 兴趣 的 读者 可 
以 尝试 使 用 Docker 和 Anaconda Zz3&, i£ https://tensorflow.google.cn/install/. ) 


(1) 使 用 本 地 pip 安装 TensorFlow 
对 于 Python 2.7, fX x ft CPU 版 本 的 ， 具 体 如 下 : 


pip install tensorflow 

For Python 3.x and of course with only CPU support: 
pip3 install tensorflow 

For Python 2.7 and of course with GPU support: 

pip install tensorflow-gpu 

For Python 3.x and of course with GPU support: 


Xr odo X Bo do 3B o Xn 


pip3 install tensorflow-gpu 


(2) 使 用 virtualenv 安装 TensorFlow 
如 果 你 已 经 在 系统 上 安装 了 Python 2+( 或 3+) 和 pip( 或 pip3), 请 按照 以 下 步骤 安装 TensorFlow. 


(创建 virtualenv 环境 : 
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$ virtualenv --system-site-packages targetDirectory 


targetDirectory 表示 virtualenv 树 的 根 目 录 。 默 认 情 况 下 ， 它 是 一 /tensorflow〈 也 可 以 选择 任何 
其 他 目录 ) 。 


GO 按 如 下 方式 激活 virtualenv 环境 : 
$ source -«/tensorflow/bin/activate 4 bash, sh, ksh, or zsh 
$ source -«/tensorflow/bin/activate.csh # csh or tcsh 


如 果 命 令 在 步骤 2 中 执行 成 功 ， 那 么 在 “终端 ”程序 中 上 应 该 可 以 看 到 以 下 内 容 : 


(tensorflow)$ 


(3)2z3& TensorFlow. 
按照 以 下 命令 之 一 在 激活 的 virtualenv 环境 中 安装 TensorFlow. 
对 于 仅 支 持 CPU 的 Python 2.7， 请 使 用 以 下 命令 : 


(tensorflow)$ pip install --upgrade tensorflow 


对 于 仅 支 持 CPU 的 Python 3.x， 请 使 用 以 下 命令 : 


(tensorflow)$ pip3 install --upgrade tensorflow 


对 于 支持 GPU 的 Python 2.7， 请 使 用 以 下 命令 : 


(tensorflow)$ pip install --upgrade tensorflow-gpu 


对 于 仅 支 持 GPU 的 Python 3.x， 请 使 用 以 下 命令 : 


(tensorflow)$ pip3 install --upgrade tensorflow-gpu 


tum LbExRag REL NübbubEk 5; 如 果 上 述 命 令 失 败 ， 请 执行 步骤 $。 此 外 ， 如 果 步 骤 3 以 
某 种 方式 失败 ， 请 尝试 通过 执行 以 下 命令 以 在 激活 的 virtualenv 环境 中 安装 TensorFlow: 


# 对 于 python 2.7 (选择 具有 CPU 或 GPU 文 持 的 适当 URL) : 
(tensorflow)$ pip install --upgrade TF PYTHON URL 
# 对 于 python 3.x (选择 具有 CPU 或 GPU 支持 的 适当 URL) : 
(tensorflow)$ pip3 install --upgrade TF PYTHON URL 


(4) 验 证 安装 。 

要 在 步骤 3 中 验证 安装 ， 必 须 激 活 虚 拟 环 境 。 如 果 virtualenv 环境 当前 未 处 于 激活 状态 ， 请 执 
行 以 下 命令 之 一 

$ source ~/tensorflow/bin/activate # bash, sh, ksh, or zsh 


$ source ~/tensorflow/bin/activate.csh 4 csh or tcsh 


GHI TensorFlow. 
BENE TensorFlow， 只 需 删除 创建 的 目录 树 即 可 。 例 如 : 
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$ rm -r targetDirectory 


6. 测试 安装 的 TensorFlow 

启动 一 个 Python 终端 (只 需 在 终端 上 输入 python 或 python3 ) ， 执 行 一 段 常 见 的 “Hello， 
TensorFlow!” 和 程序， 代码 行 如 下 : 

>>> import tensorflow as tf 

>>> hello = tf.constant("Hello, TensorFlow!") 


>>> sess-tf.Session() 


>>> print sess.run(hello) 


如 果 TensorFlow 安装 成 功 ， 我 们 将 看 到 输出 结果 为 “Hello, TensorFlow!" . 
3.4 TensorFlow 计算 图 


在 执行 TensorFlow 程序 时 ， 我 们 需要 构建 一 个 计算 图 ， 然 后 按照 计算 图 启动 一 个 会 话 ， 在 会 
话 中 完成 变量 赋值 、 计 算 等 操作 并 得 到 最 终结 果 。 换 句 话说 ，TensorFlow 的 计算 图 可 以 划分 为 两 
部 分 : 

e 构造 部 分 ， 包 含 计算 流 图 ， 用 于 构建 模型 。 

e 执行 部 分 ， 通 过 会 话 ( Session ) 执行 图 中 的 计算 ， 用 于 提供 数据 并 获得 结果 。 

对 于 计算 图 的 构造 部 分 而 言 ， 我 们 又 可 以 分 为 两 部 分 : 

e 创建 源 节点 。 

e 源 节 点 的 输出 传递 给 其 他 节点 做 运算 操作 。 

这 里 , 更 吸引 我 们 的 是 , TensorFlow 会 在 C++ 引擎 上 执行 每 一 项 运算 操作 , 这 意味 着 在 Python 
中 也 不 会 执行 任何 乘法 或 加 法 ，Python 只 是 一 个 包装 器 。 从 根本 上 讲 ，TensorFlow C ++ 引 擎 包含 
以 下 两 方面 : 

© 卷 积 、 最 大 池 化 、Sigmoid 等 操作 的 高 效 实现 。 

e 转发 模式 操作 的 导数 。 

计算 图 基本 上 类 似 于 数据 流 图 。 图 3-2 显示 了 一 个 简单 计算 的 计算 图 ， 用 于 计算 简单 的 等 式 ， 
Ws=dxc= (a+b) xc. 
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"ur 


3-2 一 个 简单 的 执行 图 

在 图 3-2 中 ， 圆 圈 表 示 节 点 处 的 操作 ， 和 矩形 表示 整个 数据 计算 图 。 在 TensorFlow 的 实施 中 ， 
TensorFlow 计算 图 包含 以 下 内 容 : 

e —iBtfOperation 对 象 : 用 于 表示 要 执行 的 计算 单元 。 

© tfTensor 对 象 : 用 于 表示 控制 操作 之 间 数 据 流 的 数据 单元 。 

使 用 TensorFlow 还 可 以 执行 延迟 操作 。 一 旦 在 计算 图 的 构建 阶段 编写 了 高 度 组 合 的 表达 式 ， 
我 们 仍然 可 以 在 会 话 的 运行 阶段 去 对 它们 求 值 。 从 技术 上 讲 ，TensorFlow 会 给 出 措施 并 以 有 效 的 
方式 按时 执行 。 例 如 ， 使 用 GPU 并 行 执行 代码 的 独立 部 分 ， 如 图 3-3 所 示 。 


3-3 TensorFlow 图 中 的 边 和 节点 将 在 CPU 或 GPU 等 设备 上 的 会 话 下 执行 
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3.5 TensorFlow 张 量 和 模型 会 话 


3.5.4 KÆ 


在 TensorFlow 中 ， 张 量 〈Tensor) 是 对 运算 结果 的 引用 ， 运 算 结 果 多 数 情况 下 是 以 数组 的 形 
式 存储 的 ， 与 numpy 中 的 数组 不 同 的 是 ， 张 量 还 具有 三 个 重要 属性 : 名 字 、 维 度 、 类 型 。 张 量 的 
名 字 是 张 量 的 唯一 标识 符 ， 我 们 通过 名 字 可 以 发 现 张 量 是 如 何 被 计算 出 来 的 。 例 如 “multiply:0” 
代表 的 是 计算 节点 “multiply” 的 第 1 个 输出 结果 ，“add:2” 代 表 的 是 计算 节点 “add” 的 第 3 个 
TensorFlow 有 两 种 类 型 的 边 ， 或 者 说 张 量 (Tensor) 的 类 型 有 两 种 : 


e 正常 : 它们 承载 节点 之 间 的 数据 结构 。 来 自 一 个 节点 的 一 个 运算 或 操作 的 输出 变 为 另 一 
个 运算 或 操作 的 输入 。 连 接 两 个 节点 的 线 携带 这 些 数值 。 

e 特殊: 此 边 不 携带 数值 ， 但 是 只 表示 两 个 节点 〈( 比 如 X fe Y ) 之 间 的 控制 依赖 关系 。 
意味 着 节点 立 只 有 在 XXX 中 的 运算 或 操作 已 经 执行 时 才 会 被 执行 。 


我 们 也 可 以 这 样 理 解 ，TensorFlow 计算 图 中 的 每 个 节点 的 输入 输出 都 是 张 量 CTensor) , ， 而 
连接 节点 的 边 (有 辣 线 段 ， 就 是 Flow， 表 示 从 一 个 张 量 〈Tensor) 状态 到 男 一 个 张 量 (Tensor) 
状态 。 我 们 在 编写 程序 时 ， 都 是 逐步 计算 的 ， 每 计算 完 一 步 便 能 够 获得 一 个 执行 结果 。 对 于 Tensor 
数据 类 型 而 言 , 虽然 我 们 可 以 事先 定义 或 者 根据 计算 图 的 结构 推断 得 到 , 但 是 有 一 类 特殊 的 边 中 并 
没有 数据 流动 ， 这 种 边 便 是 依赖 控制 (Control Dependencies) ， 其 作用 便 是 让 它 的 起 始 节点 执行 完 
之 后 再 去 执行 目标 节点 ， 这 样 一 来 我 们 就 可 以 使 用 边 进 行 灵 活 的 条 件 控制 了 。 比 如 ， 我 们 在 
TensorFlow 实施 中 定义 了 依赖 控制 关系 ， 便 可 以 在 其 他 独立 的 操作 之 间 强 制 执行 排序 ， 以 作为 限 
制 使 用 内 存 最 高 峰值 的 一 种 方式 。 

在 TensorFlow 中 ， 一 个 张 量 基本 上 是 一 个 n 维 数组 ， 下 面 让 我 们 通过 表 3-1 中 的 内 容 来 解读 
一 下 张 量 和 维 数 的 关系 。 


表 3-1 张 量 和 维 数 的 关系 


B e m-[[L2.3] [4.5.6] 


张 量 可 以 表示 0E n 阶 的 数组 GIR) 。 这 里 ， 阶 是 张 量 的 维 数 。 第 0 阶 张 量 是 一 个 数 ， 也 
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就 是 标量 ; 第 1 阶 张 量 是 一 个 一 维 数组 ， 也 就 是 回 量 ; 第 2 阶 张 量 是 一 个 二 维 数组 ， 也 就 是 矩阵 ; 
第 n 阶 张 量 是 一 个 n 维 数组 。 


352 会 话 


如 前 所 述 ，TensorFlow 中 的 会 话 〈Session) 用 来 执行 事先 定义 好 的 运算 ， 负 责 完成 多 个 计算 
设备 或 集群 分 布 式 节点 的 布置 和 数据 传输 节点 的 添加 , 并 且 还 负责 将 子 图 分 配给 相应 的 执行 器 单元 
进行 运行 。 会 话 拥 有 并 管理 TensorFlow 程序 运行 时 的 所 有 资源 。 当 计算 完成 之 后 需要 关闭 会 话 来 
帮助 系统 回收 资源 ， 否 则 就 可 能 出 现 计 算 资 源 被 占用 的 问题 。 


3.6 TensorFlow 工作 原理 


TensorFlow 是 一 个 有 具有 “client 一 master 一 worker” 架 构 的 分 布 式 系统 。 在 TensorFlow "P, £ 

与 分 布 式 系统 的 所 有 节点 或 者 设备 被 统称 为 一 个 cluster〈 集 群 ) ， 一 个 cluster 中 包含 多 个 server 

(服务 器 ) ， 每 个 server 去 执行 一 项 task〈 任 务 ) ， 而 server 和 task 又 是 一 一 对 应 的 。 这 样 看 来 ， 
我 们 可 以 把 cluster 看 成 是 server 的 集合 ， 也 可 以 看 成 是 task 的 集合 。TensorFlow 为 每 个 task 又 增 
加 了 一 个 抽象 层 ， 将 一 系列 相似 的 task 集合 称 为 一 个 job CCE) 。 例 如 ， 我 们 在 PS 架构 中 ， 习 
惯 称 parameter server (参数 服务 器 ) 的 task 集合 为 ps, 而 把 执行 梯度 计算 的 task 集合 称 为 worker. 
因此 ，cluster 又 可 以 被 看 成 是 job 的 集合 ， 实 际 上 这 只 是 逻辑 上 的 意义 ， 我 们 还 需要 有 具体 看 一 下 这 
个 server 真正 做 的 是 什么 。 在 TensorFlow 中 ，job 用 name (字符 串 ) 标识 ，task 用 index (整数 索 
引 或 整数 下 标 ) 标 识 , cluster 中 的 每 个 task 都 可 以 用 job 的 name 加 上 task 的 index 来 作 唯 一 标识 。 
在 分 布 式 系统 中 ， 一 般 情 况 下 各 个 task 在 不 同 的 节点 或 者 设备 上 执行 。 

通常 情况 下 ， 客 户 端 (client) 通过 会 话 t£Session 接口 和 master 展开 通信 ， 且 将 触发 执行 的 请 
求 提交 给 master, mi] master 会 把 所 要 执行 的 任务 分 派 给 单个 或 多 个 worker 进程 ， 相 关 结 果 通 过 
master 返回 给 客户 端 。 这 里 ，worker 负责 计算 的 执行 ， 任 何 一 个 worker 进程 都 会 管理 和 使 用 计算 
机 上 的 计算 硬件 设备 资源 ， 比 如 一 块 或 者 多 块 CPU 和 GPU， 进 而 处 理 计 算 子 图 (Subgraph) 的 运 
算 或 操作 过 程 。 

其 实 ，TensorFlow 的 架构 横 回 扩展 是 很 灵活 的 。 在 单机 模式 的 多 数 情 况 下 ，client、master 和 
worker 均 在 同一 个 进程 中 启动 ， 而 worker 进程 会 管理 本 机 上 上 所 有 的 计算 设备 资源 。 在 分 布 式 的 架 
构 中 ， 我 们 可 以 通过 远程 调用 的 方式 将 client, master 和 worker 连接 在 一 起 ， 且 任何 一 个 worker 
进程 各 自 监 控 关 联 执行 机 上 的 计算 设备 。 关 于 TensorFlow 的 单机 和 分 布 式 架构 如 图 3-4 所 示 。 
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TIRNAR 分 布 式 架构 模式 


运行 Session 


3-4 TensorFlow 的 单机 和 分 布 式 架 构 示意 图 


在 创建 计算 图 之 后 ，TensorFlow 需要 以 分 布 式 方式 由 多 个 CPU (以 及 GPU， 如 果 可 用 ) 执行 
激活 的 会 话 。 通 常 ， 实 际 上 不 需要 明确 指定 是 使 用 CPU 还 是 GPU， 因 为 TensorFlow 可 以 选择 并 
使 用 其 中 一 个 。 默 认 情 况 下 ， 将 选择 GPU 进行 尽 可 能 多 的 运算 ; 否则 ， 将 使 用 CPU。 因 此 ， 从 广 
义 上 看 ， 以 下 是 TensorFlow 的 主要 组 件 : 


e X (Variable): 用 于 包含 TensorFlow 会 话 之 间 权 重 值 和 偏差 的 值 。 

© KĒ (Tensor): 在 节点 之 间 传 递 的 一 组 值 。 

e 占 位 符 (Placeholder) : 用 于 在 程序 和 TensorFlow 图 之 间 发 送 数据 。 

e AH (Session): 启动 会 话 时 ，TensorFlow 会 自动 计算 图 中 所 有 计算 的 梯度 ， 并 在 链 式 
规则 中 使 用 它们 。 实 际 上 ， 在 执行 图 形 时 会 调用 会 话 。 


从 技术 上 说 ， 我 们 要 编写 的 程序 可 以 被 视 为 客户 端 ， 而 客户 端 用 于 以 符号 方 式 在 C/C ++ 或 
Python 中 创建 计算 图 ， 接 着 ， 我 们 的 代码 可 以 要 求 TensorFlow 执行 此 该 图 ， 请 参见 图 3-5 中 的 详 
细 信 息 。 


运行 Session 


3-5 在 TensorFlow 分 布 式 架构 下 执行 代码 示意 图 
计算 图 有 助 于 在 具有 CPU 或 GPU 的 多 个 计算 节点 上 分 配 工作 负载 。 这 样 , 神经 网 络 等 同 于 复 
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合 函 数 ， 其 中 每 个 层 〈 输 入 层 、 隐 藏 层 或 输出 层 ) 可 以 表示 为 函数 。 现 在 想 要 了 解 在 张 量 上 执行 的 
运算 或 操作 ， 有 必要 探讨 TensorFlow 编程 模块 方面 的 解决 方案 。 
3.7 通过 一 个 示例 来 认识 TensorFlow 
现在 让 我 们 结合 示例 对 TensorFlow 框架 中 的 一 些 基本 组 件 进 行 更 多 的 解读 。 我 们 编写 一 个 示 
例 来 执行 以 下 计算 ， 这 在 神经 网 络 中 非常 常见 : 


h = sigmoid(W * x + b) 


这 里 WA xE, bE, "XR. sigmoid 是 一 个 非 线 性 变换 ， 由 下 式 给 出 : 


sigmoid(x) — 
l 十 e 


我 们 将 逐步 讨论 如 何 通过 TensorFlow 进行 上 述 计 算 。 


首先 ,我 们 需要 导入 TensorFlow 和 NumPy. 7E Python 中 运行 任何 类 型 的 TensorFlow 或 NumPy 
相关 操作 之 前 ， 均 必须 导入 它们 : 


import tensorflow as tf 


import numpy as np 


接 下 来 ， 我 们 定义 一 个 图 对 象 ， 稍 后 将 使 用 运算 或 操作 和 变量 填充 它们 : 
graph = tf.Graph() + 创建 一 个 图 (graph) 对 象 


session = tf.InteractiveSession(graph-graph) 4 创建 一 个 会 话 (session) 对 象 


graph 对 象 包含 一 个 计算 图 ， 该 计算 图 连接 我 们 在 程序 中 定义 的 各 种 输入 和 和 输出， 以 获得 最 终 
所 需 的 输出 〈 即 它 定 义 W、x 和 b 如 何 被 连接 以 便 我 们 根据 图 生成 hb) 。 此 外 ， 我 们 将 定义 一 个 会 
话 对 象 ， 该 对 象 以 定义 的 图 作为 输入 ， 执 行 该 图 。 我 们 后 面 会 详细 讨论 这 些 元 素 。 

要 创建 新 的 图 对 象 ， 可 以 使 用 以 下 操作 : 


graph = tf.Graph() 
也 可 以 使 用 以 下 操作 来 获取 TensorFlow 默认 计算 图 : 
graph = tf.get default graph () 
现在 我 们 将 定义 一 些 张 量 , BI x. W, b 和 he。 在 TensorFlow 中 , 定义 张 量 有 几 种 不 同 的 方法 ， 
在 这 里 列 出 三 种 : 
(OD PH x 是 一 个 占 位 符 。 顾 名 思 义 ， 占 位 符 没 有 被 初始 化 。 相 反 ， 我 们 将 在 图 执行 时 提 
供 一 些 数值 。 


(2) 其 次 ， 这 里 有 变量 W 和 b。 由 于 变量 是 可 变 的 ， 这 意味 着 它们 的 值 可 以 随时 间 而 变化 。 
(3) 最 后 ， 我 们 有 h， 这 是 一 个 通过 对 x、W 和 执行 一 些 操 作 而 产生 的 不 可 变 的 张 量 : 
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x — tf.placeholder(shape-[1,10],dtype-tf.float32,name-'x') 

W — tf.Variable(tf.random uniform(shape-[10,5], minval--0.1,maxval-0.1, 
dtype-tf.float32),name-'W') 

b = tf.Variable(tf.zeros(shape-[5],dtype-tf.float32),name-'b') 

h = tf.nn.sigmoid(tf.matmul(x,W) + b) 


注意 ， 对 于 W 和 b， 我 们 提供 了 一 些 重要 的 参数 : 


tf.random uniform(shape-[10,5], minval--0.1, maxval-0.1l,dtype-tf.float32) 
tf.zeros(shape-[5],dtype-tf.f10at32) 


这 些 被 称 为 变量 初始 化 器 ， 是 最 初 分 配给 W 和 hb 变量 的 张 量 。 变 量 不 能 在 没有 初始 值 的 情况 
下 作为 占 位 符 流 动 ， 并 且 需 要 始终 为 它们 分 配 一 些 数值 。 这 里 ，tfrandom uniform 意味 着 我 们 在 
minval(-0.1) 和 maxval(0.1) 之 间 均 匀 地 采样 以 将 值 赋 给 张 量 ， 并 且 t£zeros 用 和 零 初始 化 张 量 。 在 定义 
张 量 时 ,定义 张 量 的 shape 也 非常 重要 。shape 属性 定义 张 量 每 个 维度 的 大 小 。 例 如 , 如 果 形 状 (shape) 
是 [10,5]， 这 意味 着 它 将 是 一 个 二 维 结构 ， 在 0 轴 上 有 10 个 元 素 ， TET 轴 上 有 5 个 元 素 。 

接 下 来 ， 我 们 将 进行 初始 化 操作 ， 初 始 化 图 中 的 变量 W RI b: 


tf.global variables initializer().run() 


现在 ， 将 执行 计算 图 以 获得 我 们 需要 的 最 终 输出 h。 这 是 通过 运行 session.run(...) 来 完成 的 ， 我 
们 将 以 占 位 符 的 值 作 为 session.run0 命 令 的 参数 : 


h eval = session.run(h,feed dict-(x: np.random.rand(1,10)]) 


最 后 ， 关 闭会 话 ， 和 释放 session 对 象 持 有 的 所 有 资源 。 


session.close() 


以 下 是 此 TensorFlow 示例 的 完整 代码 。 本 章 中 的 所 有 代码 示例 都 将 在 ch3 文件 夹 中 的 
3 tensorflow introduction.ipynb 文件 中 提供 : 


import tensorflow as tf 

import numpy as np 

4 $E X. graph Ñ session 

graph = tf.Graph() 4 Creates a graph 


session = tf.InteractiveSession(graph-graph) # Creates a session 


# 构建 graph 

# 占 位 符 是 一 种 符号 输入 

x = tf.placeholder(shape-[1,10],dtype-tf.f10at32,name-'x') 

W = tf.Variable(tf.random uniform(shape-[10,5], minval--0.1,maxval-0.1, 
dtype-tf.float32),name-'W') 4 相关 变量 


# 相关 变量 


b = tf.Variable(tf.zeros(shape-[5],dtype-tf.f10at32),name-'b') 
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h = tf.nn.sigmoid(tf.matmul(x,W) + b) # Operation to be performed 
# 在 图 中 执行 操作 和 评估 节点 

tf.global variables initializer().run() 4 初始 化 变量 

# 通 过 为 输入 x 提供 数值 来 运行 该 操作 

h eval = session.run(h,feed dict-(x: np.random.rand(1,10)]) 

# 关闭 会 话 以 释放 会 话 中 的 所 有 已 保存 资源 


session.close() 


3.8 TensorFlow Z Pig 


前 面 的 示例 程序 可 以 称 为 TensorFlow 客户 端 ， 本 节 结 合 示 例 和 上 面 的 内 容 ， 对 TensorFlow 2 
户 端 做 详细 的 解读 ,在 使 用 TensorFlow 编写 的 任何 客户 端 程序 中 , 主要 将 有 两 种 主要 类 型 的 对 象 : 
运算 (Operation〉 和 张 量 (Tensor) 。 在 前 面 的 例子 中 ，tfnn.sigmoid 是 一 个 运算 ，h 是 张 量 。 

然后 ， 这 里 还 有 一 个 graph 对 象 ， 它 是 存储 程序 数据 流 的 计算 图 。 当 我 们 在 代码 中 添加 定义 的 
x, W, b fll h 的 后 续 代码 行 时 ，TensorFlow 会 自动 将 这 些 张 量 (Tensor) 和 每 个 运算 (Operation) 

Alin, tf£matmulQO 作为 节点 添加 到 图 中 。 该 图 将 存储 重要 信息 ， 例 如 张 量 的 依赖 性 以 及 要 执行 
的 运算 。 在 我 们 的 示例 中 ， 如 果 要 计算 h， 那 么 张 量 x、W 和 bb 是 必需 的 。 因 此 ， 如 果 在 运行 时 没 
有 正确 初始 化 其 中 一 个 参数 ，TensorFlow 将 在 这 里 指出 需要 修正 的 具体 的 初始 化 错误 。 

接着 ， 由 前 面 内 容 ， 我 们 知道 会 话 (Session) 将 扮演 执行 计算 图 的 角色 ， 方 法 是 将 图 划分 为 
子 图 、 更 精细 的 图 ， 人 然后 将 这 些 图 分 配给 将 执行 指定 任务 的 worker， 这 是 通过 session.run(...) ER Zt 
来 完成 的 。 下 面 ， 我 们 来 看 看 TensorFlow 架构 中 执行 客户 端 时 的 情况 。 

大 家 知道 ，TensorFlow 擅长 创建 一 个 包含 所 有 依赖 关系 和 运算 的 精确 计算 图 ， 且 它 能 够 准确 
地 知道 数据 流 以 何 种 方式 、 何 时 、 在 哪里 流动 。 当 然 , 还 有 一 个 元 素 使 得 TensorFlow 变 得 更 优秀 ， 
那 就 是 能 够 有 效 执行 计算 图 的 会 话 〈Session) ， 这 也 是 会 话 进入 TensorFlow 架构 的 入 口 之 处 。 现 
在 让 我 们 来 看 看 会 话 的 内 部 情况 ， 以 了 解 图 形 是 如 何 被 执行 的 。 

首先 ， 由 前 面 的 介绍 ， 我 们 知道 TensorFlow 客户 端 中 的 相关 元 素 有 计算 图 、 张 量 和 会 话 。 创 
建 会 话 时 , 它 会 将 计算 图 作为 芋 GraphDef 协议 缓冲 区 发 送 到 分 布 式 架 构 的 主机 。 给 GraphDef 是 图 
的 标准 化 表示 。 分 布 式 主 服 务 器 查看 图 中 的 所 有 计算 ， 并 将 计算 划分 到 不 同 的 设备 (例如, 不同 的 
GPU 和 CPU) 。 我 们 的 sigmoid 示例 中 的 计算 图 如 图 3-6 所 示 。 

接 下 来 ， 计 算 图 将 被 分 解 为 子 图 ， 并 进一步 细 分 为 更 细 的 部 分 ， 这 在 具有 许多 隐藏 层 的 现实 世 
界 解决 方案 中 意义 更 大 。 此 外 ， 为 了 并 行 地 执行 任务 (例如 ， 多 个 设备 ) ， 将 计算 图 分 解 为 多 个 部 
分 就 变 得 很 重要 。 执 行 此 图 〈 知 该 图 被 划分 为 子 图 ， 则 执行 子 图 ) 称 为 单个 任务 ， 其 中 任务 被 分 配 
给 单个 TensorFlow 服务 器 。 
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tf.nn.sigmoid 


3-6 客户 端的 计算 图 
然而 ,在 现实 中 , 每 个 任务 都 是 通过 将 其 分 解 为 两 个 部 分 来 执行 的 ,每 个 部 分 都 是 由 单个 worker 


€ 一 个 worker 使 用 参数 的 当前 值 (运算 执行 器 ) 执行 TensorFlow 操作 。 
@ 一 个 worker 存储 参数 ， 并 使 用 执行 运算 器 后 获得 新 值 来 更 新 它们 ( 参数 服务 器 ) 。 


TensorFlow 客户 端的 通用 工作 流程 如 图 3-7 所 示 。 


Worker 
/job:worker/task:0 


Worker 
/job:ps/task:0 


Single Task 


Tensorflow Client 


COE E ou 
[| 


Distributed 
Master 


3-7 TensorFlow 客户 端的 通用 执行 路 线 图 
图 3-8 说 明了 计算 图 的 分 解 情况 。 除 了 分 解 计 算 图 之 外 ，TensorFlow 还 插入 发 送 节点 和 接收 节 
点 ， 以 利于 参数 服务 器 和 运算 执行 器 之 间 的 通信 。 我 们 可 以 理解 为 每 当 数 据 可 用 时 ,发送 节点 就 发 
送 数据 ， 其 中 接收 节点 在 对 应 的 发 送 节点 发 送 数据 时 继续 侦 听 和 捕获 数据 。 
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Parameter Server (C assin > 


send 


send — 
| Recv (er matnud) 
mM I 
可 回忆 Il 


/job:ps/task:0 / job:worker /task:0 


3-8. 计算 图 的 分 解 情 况 


最 后 , 一 旦 计算 完成 , 会 话 就 将 更 新 的 数据 从 参数 服务 器 端 带 回 到 客户 端 。 从 现在 技术 角度 来 
看 ,我 们 也 可 以 给 出 TensorFlow 的 技术 架构 , 如 图 3-9 所 示 。 此 解释 基于 https://tensorflow.google.cn/ 
extend/architecture 上 的 官方 TensorFlow 文档 。 


Training libraries Inference libs 
Python client - 


C API 


Kernel implementations 


Networking layer Device layer 


3-9 TensorFlow 技术 架构 


3.9 TensorFlow 中 常见 元 素 解读 


在 了 解 底 层 架 构 的 同时 ， 我 们 下 面 将 介绍 构成 TensorFlow 客户 端 中 最 常见 的 元 素 。 
@ 输入 (Input): 用 于 训练 和 测试 算法 的 数据 。 
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e 变量 (Variable) : 可 变 张 量 ， 主 要 定义 算法 的 参数 。 
e 输出 (Output) : 存储 终端 和 中 间 输 出 的 不 可 变 张 量 。 
运算 或 操作 (Operation ) : 输入 的 各 种 变换 以 产生 期 望 的 输出 。 
在 之 前 的 sigmoid 示例 中 ， 我 们 可 以 找到 相关 类 别 的 实例 ， 如 表 3-2 中 所 示 。 
表 3-2 sigmoid 例子 中 相关 类 别 的 实例 
TensorFlow 元 素 示例 客户 端的 值 


Operation 一 运算 操作 tf.matmul(...). tf.nn.sigmoid(...) 


接 下 来 ， 我 们 将 详细 解读 TensorFlow 中 的 这 些 元 素 。 


3.9.1 在 TensorFlow 中 定义 输入 


客户 端 主 要 以 下 面 三 种 不 同 的 方式 接收 数据 : 
e 使 用 Python 代码 在 算法 的 每 个 步骤 中 提供 数据 。 
e 将 数据 预 加 载 并 存储 为 TensorFlow KE. 
e 构建 输入 管道 
接 下 来 ， 具体 看 看 这 三 种 不 同 的 方式 。 
1. 使 用 Python 代码 提供 数据 
在 第 一 种 方法 中 ， 可 以 使 用 传统 的 Python 代码 方法 将 数据 提供 给 TensorFlow 客户 端 。 在 我 们 
之 前 的 示例 中 ，x 是 此 方法 的 示例 。 为 了 从 外 部 数据 结构 〈 例 如 ，numpy.ndarray) Inc" yide G2 
据 TensorFlow 库 提 供 了 一 种 极 佳 的 数据 结构 符号 ， 称 为 占 位 符 〈Placeholder ) ， 定 义 为 
tfplaceholder(...)。 前 面 我 们 说 过 ， 占 位 符 在 计算 图 构建 阶段 不 需要 实际 数据 ， 相 反 ， 我 们 仅 通 过 执 
4T session.run(..., feed dict = (placeholder: value}) 调 用 的 图 时 提供 数据 , 方法 是 将 外 部 数据 以 Python 
字典 的 形式 传递 给 feed diet 参数 。 占 位 符 的 定义 如 下 : 
tf.placeholder(dtype, shape-None, name-None) 
参数 如 下 : 
€ dtype: 这 是 提供 占 位 符 的 数据 的 类 型 。 
€ shape: 这 是 占 位 符 的 shape， 以 一 维 向 量 给 出 。 
€ name: 这 是 占 位 符 的 名 称 ， 对 于 调试 很 重要 。 
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2. 将 数据 了 预 加 载 并 存储 为 张 量 

第 二 种 方法 与 第 一 种 方法 类 似 , 但 有 一 点 需要 注意 。 我 们 不 必 在 计算 图 执行 期 间 提 供 数 据 ， 因 
为 数据 是 预先 加 载 的 。 为 了 了 解 这 一 点 ， 让 我 们 修改 一 下 sigmoid 示例 ， 将 x 定义 为 占 位 符 : 

x = tf.placeholder (shape-[1, 10] , dtype-tf.float32,name-'x!) 

男 外 ， 也 将 x 定义 为 包含 具体 数值 的 张 量 : 


x = tf.constant(value-[[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]], 
dtype-tf.float32,name-'x') 


其 完整 代码 将 变 为 如 下 : 
import tensorflow as tf 


# 定义 graph 和 session 
graph = tf.Graph() 


session = tf.InteractiveSession(graph-^graph) 
# 创建 计算 图 graph 
#x 一 预 加 载 的 输入 
x = tf.constant(value-[[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]], 
dtype-tf.float32,name-'x') 
W — tf.Variable(tf.random uniform(shape-[10,5], minval--0.1, maxval-0.1, 
dtype-tf.float32),name-'W') 4 变量 
# 相关 变量 
b = tf.Variable(tf.zeros(shape-[5],dtype-tf.float32),name-'b') 
h = tf.nn.sigmoid(tf.matmul(x,W) + b) # 将 要 执行 的 运算 
# 在 图 中 执行 运算 和 评估 节点 
tf.global variables initializer().run() 4 初始 化 变量 
# 执 行 不 带 有 feed dict 的 运算 
h eval = session.run(h) 
print (h eval) 
# 关 闭会 话 ， 释 放 资 源 


session.close() 


其 实 ， 可 以 发 现 这 里 与 原来 sigmoid 示例 存在 两 个 主要 区 别 。 我 们 以 不 同 的 方式 定义 了 x。 现 
在 直接 指定 一 个 具体 值 并 将 x 定义 为 张 量 ， 而 不 是 使 用 占 位 答对 象 并 在 计算 图 执行 时 输入 实际 值 。 
另外 ， 正 如 你 看 到 的 ， 我 们 在 session.run(..) 中 不 会 提供 任何 额外 的 参数 。 但 是 ， 在 缺点 方面 ， 现 
在 我 们 无 法 在 session.run(..) 处 回 x 提供 不 同 的 值 并 查看 输出 是 如 何 变化 的 。 

3. 构建 数据 输入 管道 

输入 管道 是 专门 为 需要 快速 处 理 大 量 数 据 的 “重量 级 ”客户 庙 而 设计 的 。 这 实际 上 创建 了 一 个 
保存 数据 的 队列 ， 直 到 等 到 需要 它 的 时 候 为 止 。TensorFlow 还 提供 了 各 种 预 处 理 步 又 Cn, Hj 
于 调整 图 像 对 比 度 / 亮 度 或 者 标准 化 ) ， 在 将 数据 提供 给 算法 之 前 执行 。 为 了 提高 效率 ， 可 以 让 多 
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个 线程 并 行 读 取 和 处 理 数 据 。 


(1) 数据 输入 管道 的 结构 
TensorFlow 数据 输入 管道 也 可 以 被 抽象 为 一 个 ETL 过 程 CExtract. Transform. Load) . 


€ Extract: 从 硬盘 上 读 取 数据 , 可 以 是 本 地 ( HDD 或 SSD ), 也 可 以 是 网 盘 ( GCS 或 HDFS ). 

€ Transform: 使 用 CPU 去 解析 、 预 处 理 数 据 ， 比 如 图 像 解码 、 数 据 增强 、 变 换 (比如 随 
机 裁剪 、 翻 转 、 磊 色 变 换 ) 、 打 乱 (shuffle) 、 分 批量 (batching ) 。 

€ Load: 将 Transform 后 的 数据 加 载 到 计算 设备 ， 例 如 GPU、TPU 等 设备 。 


这 种 模式 有 效 地 利用 了 CPU， 从 而 让 GPU, TPU 等 设备 专注 于 进行 模型 的 训练 过 程 〈 提 高 
了 设备 的 利用 率 ) 。 
具体 来 看 ， 典 型 的 管道 将 包含 以 下 组 件 : 


文件 名 列表 。 

文件 名 队列 ， 为 输入 (记录 ) 阅读 器 生成 文件 名 。 
用 于 读 取 输 入 的 记录 阅读 器 (记录 ) 。 

解码 读 取 记 录 的 解码 器 (例如 ，JPEG 图 像 解码 ) 。 
预 处 理 步 骤 (可 选 ) 。 

一 个 示例 (解码 输入 ) 队列 。 


(2) 数据 输入 管道 (Pipeline) 的 优化 

随 着 新 的 计算 设备 〈 例 如 GPU 和 TPU) 的 应 用 ， 使 得 以 越 来 越 快 的 速度 训练 神经 网 络 成 为 可 
能 , CPU 处 理 方式 很 容易 遇 到 海量 数据 计算 的 瓶颈 。tfdata API 提供 数据 输入 管道 所 需 的 各 种 部 件 ， 
可 以 对 数据 输入 管道 进行 优化 。 

在 执行 一 个 训练 step 之 前 ， 必 须 先 做 Extract. Transform 训练 数据 ， 然 后 将 其 提供 给 计算 设 
备 上 运行 的 模型 。 在 以 前 ， 当 CPU 在 准备 数据 时 ， 计 算 设 备 处 于 闲置 状态 ; 当 计 算 设 备 执行 训练 
模型 时 ，CPU 又 处 于 闲置 状态 。 因 此 ,单个 训练 step 的 时 间 等 于 CPU 准备 数据 的 时 间 和 计算 设 
备 执行 训练 step 时 间 的 总 和 。 

Pipelining 操作 将 训练 step 中 的 数据 准备 和 模型 执行 实现 了 并 行 操作 。 当 计算 设备 在 执行 第 
N 个 训练 step 时 ，CPU 将 为 第 N+1 个 训练 step 准备 数据 。 这 样 ， 通 过 两 个 过 程 的 重生， 单个 
训练 step 的 时 间 将 取 CPU 准备 数据 的 时 间 和 计算 设备 执行 训练 step 的 时 间 中 的 较 大 值 。 

如 果 我 们 没有 进行 管道 化 〈(Pipelining) 操作，CPU 和 GPU/TPU 中 大 部 分 时 间 处 于 空闲 状态 ， 


如 图 3-10 所 示 。 


(00 
| GPUTPU 
time 


3-10 没有 使 用 Pipelining 操作 的 CPU 和 GPU / TPU 处 于 空闲 状态 的 时 间 示 意图 
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我 们 如 果 使 用 Pipelining 操作 ，CPU 和 GPU/TPU 中 处 于 空闲 状态 的 时 间 显 著 减 少 ， 如 图 3-11 


所 示 。 


time 


3-11 {E Pipelining 操作 的 CPU 和 GPU/TPU 处 于 空闲 状态 的 时 间 示 意图 


有 关 更 多 信息 ， 请 参阅 https://tensorflow.google.cn/euide/performance/datasets#input_ 


‘> 


pipeline structure 上 有 关 数 据 输入 管道 的 官方 说 明 。 


(3) 编写 输入 管道 示例 

让 我 们 使 用 TensorFlow 编写 一 个 输入 管道 示例 。 在 这 个 例子 中 , 我 们 有 三 个 CSV 格式 的 文本 
文件 Ctextl.txt, text2.txt 和 text3.txt) , 每 个 文件 有 5 行 , ST 10 CHESA CRAT: 
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0) 。 接 着 ， 我 们 具体 来 看 一 下 。 


更 多 相关 信息 ,请 参阅 https;//tensorflow.google.cn/programmers guide/reading data 上 有 关 


I2 


导入 数据 的 TensorFlow 官方 说 明 。 


首先 ， 和 以 前 一 样 导 入 一 些 重 要 的 库 : 


import tensorflow as tf 


import numpy as np 
接 下 来 ， 我 们 将 定义 计算 图 graph 和 会 话 session XJ $i: 


graph = tf.Graph() 
session = tf.InteractiveSession (graph-graph) 


然后 ， 我 们 将 定义 一 个 文件 名 队列 ， 一 个 包含 文件 名 的 队列 数据 结构 。 这 将 作为 参数 传递 给 
reader (后 面 将 被 定义 ) 。 队 列 将 根据 reader 的 请 求生 成 文件 名 ， 以 便 读 者 可 以 使 用 这 些 文件 名 获 
取 文 件 进 而 读 取 数据 : 


filenames = ['test%$d.txt'%$i for i in range(1,4)] 


filename queue - tf.train.string input producer(filenames, capacity-3, 


shuffle-True,name-'string input producer') 
XE, capacity 是 在 给 定时 间 时 队列 中 保存 的 数据 量 ，shuffle 告诉 队列 是 否 在 发 出 数据 之 前 对 
数据 进行 重新 打 乱 Cshuffle) 。 
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TensorFlow 有 几 种 不 同类 型 的 reader Chttps://tensorflow.google.cn/api guides/python/io ops#Readers 
上 提供 了 可 用 reader 列表 ) 。 由 于 我 们 有 一 些 单独 的 文本 文件 ， 其 中 一 行 代表 一 个 数据 点 ， 因 此 ， 
这 里 TextLineReader 是 最 适合 的 : 


reader = tf.TextLineReader() 


在 定义 reader 之 后 ， 我 们 可 以 使 用 read0 函 数 从 文件 中 读 取 数 据 。 它 输出 的 是 “ 键 - 值 ?对 。 访 
键 识 别 出 文 件 和 该 文件 中 正在 读 取 的 记录 (文本 行 ) ， 我 们 可 以 省 略 这 个 。 该 值 返 回 reader 所 读 取 
行 的 实际 值 : 

key, value = reader.read(filename queue, name-'text read op ) 

下 面 我们 将 定义 record defaults， 如 果 发 现存 在 任何 错误 记录 提示 ， 将 给 出 如 下 输出 : 


record defaulks — [I-1.01; 全 10 人 [10 [71.0] j; [1:0]; [71.0], [71.0]; [—1.0]; 
[71.0], [-1.01] 


现在 ， 我 们 将 读 取 的 文本 行 解码 为 数字 列 ( 就 像 我 们 的 CSV 文件 一 样 ) 。 为 此 ， 我 们 使 用 
decode csv(0) 方 法 。 打 开 文 件 〈 例 如 ，testl.txkt) ， 将 看 到 在 一 行 中 有 10 列 : 


coll, col2, col3, col4, col5, colo, col7, col8, col9, coll0 -tf.decode csv (value, 


record defaults-record defaults) 


然后 ， 我 们 将 连接 这 些 列 来 组 成 单个 张 量 〈 称 之 为 特征 ) ， 这 些 张 量 将 被 传递 给 另 一 个 方法 
tftrain.shuffle batch(). tftrain.shuffle batchO 方 法 采用 先前 定义 的 张 量 ， 随 机 填充 张 量 并 输出 一 批 
给 定 的 批量 大 小 : 


features - tf.stack([coll, col2, col3, col4, colb; colo, col7, col8,col9, col10]) 
x = tf.train.shuffle batch([features], batch size-3, capacity-5, 
name-'data batch', min after dequeue-1, 


num threads-1) 


batch size 参数 是 我 们 在 给 定 step 中 采样 的 数据 批量 大 小 ，capacity 是 数据 队列 的 容量 CDU 
队列 需要 更 多 内 存 ), min_after_dequeue 表示 部 分 元 素 出 队 后 还 留 在 队列 中 的 最 小 元 系数 量 。 最 后 ， 
num threads 定义 了 用 于 生成 一 批 数据 的 线程 数 。 如 果 管 道中 进行 了 大 量 预 处 理 ， 可 以 增加 这 个 线 
程 数量 。 此 外 , 如果 我 们 需要 在 不 进行 shuffle 的 情况 下 读 取 数据 C5 t£train.shuffle batch 一 样 )， 
就 可 以 调用 t£train.batch 方法 。 接 着 ， 我 们 将 通过 以 下 命令 来 启动 此 管道 : 

coord = tf.train.Coordinator () 


threads = tf.train.start queue runners(coord-coord, sess-session) 


可 以 将 tftrain.CoordinatorO 类 看 成 为 线程 管理 器 。 它 控制 着 各 种 管理 线程 的 机 制 。 我 们 需要 
f.train.Coordinator()25, 因为 输入 管道 产生 许多 线程 来 填充 入 队 队 列 、 出 列队 列 以 及 许多 其 他 任务 。 
接 下 来 ， 我 们 将 使 用 之 前 创建 的 线程 管理 器 去 执行 在 train.start queue runners(..). QueueRunner() 
保存 队列 的 入 队 操 作 ， 这 些 操 作 是 在 定义 输入 管道 时 上 自动 创建 的 。 因 此 ， 要 填充 已 定义 的 队列 ， 我 
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们 需要 调用 tf£.train.start queue runners 函数 来 启动 这 些 队 列 运行 的 程序 。 

接 下 来 , 在 指定 任务 完成 之 后 , 我 们 需要 停止 相关 线程 并 将 它们 连接 到 主线 程 ， 否则 眼前 的 程 
序 将 无 限期 挂 起 。 这 是 通过 调用 coord.request stop() fll coord.join(threads) 来 实现 的 。 这 个 数据 输入 
管道 与 我 们 的 sigmoid 示例 相 结 合 ， 便 能 够 直接 从 文件 中 读 取 数据 ， 如 下 所 示 : 


import tensorflow as tf 

import numpy as np 

import os 

# 定义 graph 和 session 

graph = tf.Graph() 

session = tf.InteractiveSession(graph-^graph) 


### 创建 数据 输入 管道 S£ 


# 文件 名 队列 
filenames = ['test$d.txt'$i for i in range(1,4)] 
filename queue - tf.train.string input producer(filenames, capacity-3, 


shuffle-True,name-'string input producer!) 
# 检查 所 有 文件 是 否 存在 

for f in filenames: 

if not tf.gfile.Exists (f): 


raise ValueError('Failed to find file: ' + f) 


else: 
print('File $s found.'$f) 
#reader 接受 一 个 文件 名 队列 和 read () 函数 ，read () 函数 依次 输出 数据 
reader = tf.TextLineReader () 
# 输出 “ 键 - 值 ” 对 
key, value = reader.read(filename queue, name-'text read op  ) 
# 如 果 在 读 取 文 件 时 遇 到 任何 问题 ， 这 是 返回 的 值 
record defaults- [[-1.0], [-1.0], [-1.0], [-1.0], [-1.0], [-1.0], [71.0], [-1.0], 
[71.0], [-1.01]] 
# 将 读 取 到 的 数值 解码 为 列 
coll; ciz; CO Cold, ol GOlG coli; cOlÀlB, Go coL = 


tf.decode csv (value, record defaults-record defaults) 


# 现在 我 们 将 这 些 列 合 加 在 一 起 ， 形 成 一 个 包含 所 有 列 的 单个 张 量 
features —tf.stack([coll, col2, col3, col4, col5, col6, col7, col8,co19, col10]) 
+ 输出 x 被 随机 分 配 一 批 patch _ size 数据， 其 中 从 .txt 文件 中 读 取 数据 
x = tf.train.shuffle batch([features], batch size-3, capacity-5, 
name-'data batch',min after dequeue-1,num threads-1) 
*QueueRunner 从 队列 中 检索 数据 ， 我 们 需要 显 式 地 启动 它们 
# Coordinator 协调 多 个 QueueRunners 
coord - tf.train.Coordinator() 


threads = tf.train.start queue runners(coord-coord, sess-session) 


56 | TensorFlow 与 自然 语言 处 理应 用 


# 通过 定义 变量 和 计算 来 构建 计算 图 

W — tf.Variable(tf.random uniform(shape-[10,5], minval--0.1,maxval-0.1, 
dtype-tf.float32),name-'W') 4 变量 

# 相关 变量 

b = tf.Variable(tf.zeros(shape-[5],dtype-tf.float32),name-'b') 

h = tf.nn.sigmoid(tf.matmul(x,W) + b) + 要 执行 的 运算 

# 在 图 中 执行 运算 和 评估 各 节点 

tf.global variables initializer().run() # 初始 化 变量 

# 用 zx 计算 h 并 打印 5 个 步 的 结果 

for step in range(5): 

x eval, h eval - session.run([x,h]) 

print ('========== Step £$d -2---—-—-—----'$step) 

print('Evaluated data (x)') 

print (x eval) 

print('Evaluated data (h)') 

print (h eval) 

printi'") 

# XH] coordinator， 否 则 程序 将 无 限期 挂 起 

coord.request stop() 

coord.join (threads) 


session.close() 


3.92 在 TensorFlow 中 定义 变量 


变量 在 TensorFlow 中 扮演 着 重要 角色 。 变 量 本 质 上 是 一 个 张 量 ， 具 有 特定 的 形状 Cshape) ， 
该 形状 (shape〉 用 于 定义 变量 将 具有 多 少 个 维度 以 及 每 个 维度 的 大 小 。 然 而 ， 与 常规 张 量 不 同 ， 
变量 是 可 变 的， 也 就 意味 着 变量 的 值 在 定义 后 是 可 以 改变 的 。 这 是 实现 学 习 模 型 参数 (例如 ， 神 经 
网 络 权重 值 ) 的 理想 属性 ， 其 中 权重 值 在 每 个 学 习 步 骤 之 后 会 稍 有 变化 。 例 如 ， 如 果 使 用 x = 
tf.Variable(0,dtype=tf.int32) 定 义 变量 ， 则 可 以 使 用 诸如 tfassign(x,x+1) 之 类 的 TensorFlow 运算 来 更 
改 该 变量 的 值 。 但 是 ， 如 果 这 样 定义 张 量 ， 例 如 x = tf.constant(0, dtype = 从 int32)， 就 无 法 更 改 该 
张 量 的 值 ， 它 应 该 保持 0 的 状态 直到 程序 执行 结束 。 

变量 的 创建 很 简单 。 在 我 们 sigmoid 的 示例 中 ， 已 经 创建 了 两 个 变量 W 和 b。 在 创建 变量 时 ， 
有 一 些 事情 非常 重要 ， 在 这 里 列 出 它们 并 在 后 续 中 详细 讨论 : 


Variable shape: 变量 形状 。 

Data type: 数据 类 型 。 

Initial value: 初始 值 。 

Name (optional): 名 称 (可 选 ) 。 


变量 形状 是 [x，y，z，.…] 格 式 的 一 维 癌 量 。 列 表 中 的 每 个 值 表示 相应 维度 或 轴 的 大 小 。 例 如 ， 
如 果 需 要 具有 50 行 和 10 列 的 二 维 张 量 作为 变量 ， 那 其 形状 将 是 [50,10]。 
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变量 的 维 数 〈 形 状 癌 量 的 长 度 ) 在 TensorFlow 中 被 识别 为 张 量 的 秩 。 不 要 把 它 与 矩阵 的 秩 混 
消 起 来 。 


其 实 , 数据 类 型 在 确定 变量 大 小 方面 起 看 重要 作用 。 有 许多 不 同 的 数据 类 型 , 包括 常用 的 t£ bool. 
t£uint8. tffloat32 和 tint32〈 代 码 中 的 字段 类 型 ， 其 意义 基本 上 都 是 通用 的 ， 这 和 我 们 平时 编写 
Java 或 .net 程序 时 用 到 的 布尔 类 型 、 浮 点 类 型 、 整 数 类 型 类 似 ， 而 unit8 是 8 位 无 符号 整 型 ) 。 每 
种 数据 类 型 都 具有 属于 该 类 型 的 单个 值 所 需 的 位 数 (bit)。 例 如 ,tuint8 类 型 需要 有 8 位 , 而 给 float32 
需要 32 位 。 通 营 的 做 法 是 使 用 相同 的 数据 类 型 进行 计算 ， 否 则 会 导致 数据 类 型 的 不 匹配 。 因 此 ， 
如 果 需 要 对 两 个 具有 不 同 数据 类 型 的 张 量 进行 转换 ， 需 要 使 用 给 cast(..) 操 作 将 一 个 张 量 显 式 地 转 
换 为 另 一 个 张 量 的 类 型 。 例 如 ， 对 于 具有 ttint32 数据 类 型 的 x 变量 ， 需 要 将 其 转换 为 全 float32 的 
类 型 ，tf.cast(x，dtype=tf.float32) 的 调用 就 是 将 x 变量 转换 为 tfloat32 类 型 。 

接 下 来 ， 我 们 需要 对 变量 进行 初始 化 ，TensorFlow 也 提供 了 几 种 不 同 的 初始 化 器 ， 包 括 常数 
初始 化 器 和 正 态 分 布 初 始 化 器 。 TensorFlow 一 些 主要 的 初始 化 器 如 下 所 示 : 


€ tfzeros 
€ tfconstant initializer 
@ tfrandom uniform 
€  tftruncated normal 

最 后 ， 变 量 的 名 称 (name) 将 作为 一 个 标识 符 AD) ， 使 我 们 能 够 在 图 (Graph) 中 对 该 变量 
进行 识别 。 因 此 ， 如 果 我 们 对 计算 图 进行 可 视 化 操作 ， 那 变量 将 通过 传递 name 关键 字 参 数 的 形式 
进行 显示 。 如 果 未 指定 名 称 ，TensorFlow 将 使 用 默认 命名 方案 。 


Python 变量 tf.variable 是 赋 给 计算 图 的 ， 它 不 是 TensorFlow 交 量 命名 的 一 部 分 。 考 虑 下 


面 的 示例 ， 可 以 在 其 中 指定 TensorFlow 变量 : 
a = tf.Variable (tf.zeros ([5] )) name -'b') 


iX €, TensorFlow 的 图 将 通过 名 称 b 而 不 是 a 来 识别 该 变量 。 


3.9.3 定义 TensorFlow 输出 


TensorFlow 的 输出 通常 是 张 量 ， 可 以 是 输入 或 变量 或 两 者 转换 后 的 结果 。 在 我 们 的 例子 中 ，h 
是 一 个 输出 ， 其 中 h t£nnsigmoid (tfmatmul (x, W) + b) 。 当 然 ， 有 了 时候 TensorFlow 的 一 个 
输出 也 可 能 变 成 下 一 个 输入 的 内 容 , 依次 输出 下 去 可 以 形成 一 组 链 式 运算 或 操作 , 而 这 里 的 运算 或 
操作 也 不 一 定 必须 是 TensorFlow 运算 或 操作 ， 还 可 以 使 用 标准 Python 算法 ， 例 如 : 
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x = tf.matmul (w,2A) 
x + B 
z = tf.add(y,C) 


K 
Il 


3.94 定义 TensorFlow 运算 或 操作 


在 https://tensorflow.google.cn/api docs/python/ 上 查看 TensorFlow API, 你 会 发 现 TensorFlow 有 
大 量 可 用 的 运算 或 操作 。 下 面 ， 我 们 将 对 TensorFlow 中 几 个 常见 的 运算 或 操作 进行 解读 。 


. 比较 运算 


比较 运算 对 于 比较 两 个 张 量 非常 有 用 。 对 于 比较 运算 部 分 的 详细 资料 ， 读 者 可 以 查阅 
https://github.com/tensorflow/docs/tree/master/site/en/api guides/python 中 比较 运算 符 的 详细 内 容 。 当 
然 ， 对 于 比较 运算 工作 原理 的 理解 ， 通 过 代码 层面 可 能 会 更 直观 些 。 这 里 ， 我 们 给 出 示例 张 量 x 
和 y: 


# 假 设 x 和 y 的 取 值 如 下 

#x (2-D tensor) => [[1,2],[3,4]] 

#y (2-D tensor) => [[4,3], [3,2]] 

x= tf.constant([[1,2],[3,4]], dtype-tf.int32) 
y- tf.constant([[4,3],[3,2]], dtype-tf.int32) 


# 检查 两 个 张 量 在 元 素 方面 是 否 相等 ， 并 返回 布尔 类 型 的 张 量 

# x equal y => [[False,False],[True,False]] 

x equal y = tf.equal(x, y, name-None) 

HIE x 在 对 应 元 素 方面 是 否 小 于 y 并 返回 布尔 类 型 的 张 量 

# x less y => [[True,True],[False,False]] 

x less y = tf.less(x, y, name-None) 

# 检查 x 在 对 应 元 素 方面 是 否 大 于 或 等 于 y 并 返回 布尔 类 型 的 张 量 


# x great equal y => [[False,False],[True,True]] 


X great equal y - tf.greater equal(x, y, name-None) 

# 从 x 和 y 中 选择 元 素 ， 具 体 取决 于 条 件 是 否 满足 (从 x 中 选择 元 素 ) 或 

# 条 件 失败 (从 y 中 选择 元 素 ) 

condition = tf.constant([[True,False],[True,False]],dtype-tf.bool) 
# x cond y => [[1,3], [3,2]] 


x cond y = tf.where (condition, X, Y, name=None) 


2. 比较 数学 运算 


TensorFlow 人 允许 我 们 对 从 简单 到 复杂 的 张 量 执行 数学 运算 。 这 里 我 们 将 讨论 TensorFlow 中 提 
供 的 一 些 数 学 运算 。 完 整 的 运算 集 可 在 https//github.com/tensorflow/docs/tree/master/site/en/ 


api guides/python 上 找到 。 
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# 假 设 x 和 y 的 取 值 如 下 

#x (2-D tensor) => [[1,2], [3,4]] 

#y (2-D tensor) => [[4,3],[3,2]] 

x= tf.constant([[1,2],[3,4]], dtype=tf.float32) 
y = tf.constant([[4,3],[3,2]], dtype-tf.float32) 
# 以 元 素 方式 增加 两 个 张 量 x 和 y 

# x add y => [[5,5],[6,61] 

x add y - tf.add(x, y) 

*ODUTABERSEIA CIIÉZUR 7I H) 

# x mul y => [[10,7],[24,17]] 

x mul y = tf.matmul(x, y) 

# 计算 x 元 素 的 自然 对 数 ， 相 当 于 计算 In GO 

# log x => [[0,0.6931],[1.0986,1.3863]] 

log x = tf.log(x) 

# 在 指定 轴 上 执行 归 约 (reduction) 

# x sum 1 => [3,7] 


x sum 1 = tf.reduce sum(x, axis-[1], keepdims-False) 
* x sum 2 => [[4],[61] 
x sum 2 — tf.reduce sum(x, axis-[0], keepdims-True) 


+ 根据 segment ids〔 同 一 段 中 具有 相同 ia 的 项 ) 对 张 量 进行 分 段 ， 并 计算 数据 的 分 段 总 和 
data = tf.constant([1,2,3,4,5,6,7,8,9,10], dtype-tf.f1oat32) 
segment ids — tf.constant([0,0,0,1,1,2,2,2,2,2 ], dtype-tf.int32) 

# x seg sum => [6,9,40] 


X seg sum = tf.segment sum(data, segment ids) 


3. 比较 分 散 ( Scatter ) 和 聚合 ( Gather ) 操作 


随 着 人 工 智能 的 迅 狐 发 展 ， 尤 其 是 GPU 可 编程 性 能 的 增强 以 及 GPGPU (General Purpose 
Computing on GPU， 在 图 形 处 理 器 上 进行 通用 计算 ) 技术 的 不 断 发 展 ， 相 关 研 究 /技术 人 员 也 迫切 
希望 基于 流 处 理 器 模型 的 GPU 也 可 以 和 CPU 一 样 , 在 支持 流程 分 支 的 同时 ,也 能 够 实现 对 存储 器 
进行 灵活 的 读 写 操作 。 其 实 ，Ian Buck 在 进行 早期 的 GPU 通用 可 编程 技术 研究 时 ， 就 发 现 GPU 完 
成 复杂 计算 任务 时 存在 一 个 关键 性 的 缺陷 ， 那 就 是 缺乏 灵活 的 存储 器 操作 。 所 以 ,他 在 后 来 的 研究 
中 就 增加 了 对 分 散 和 聚合 操作 的 支持 ,但 是 结果 还 是 以 牺牲 一 些 性 能 为 代价 的 情况 下 完成 了 整个 过 
程 。 

在 GPU 中, CUDA 中 分 散 和 聚合 操作 实现 的 结构 示意 图 与 第 一 回 量 机 中 的 很 相似 ， 分 散人 允许 
将 数据 输出 到 非 连续 的 存储 器 地 址 内 ， 而 聚合 则 允许 从 非 连续 的 存储 器 地 址 内 读 取 数据 。 因 此 ， 如 
果 认 为 存储 器 (如 DRAM) 是 一 个 二 维 数 组 ， 分 散 则 可 以 看 作 利 用 数组 下 标 或 索引 将 数据 写 入 数 
组 中 的 任意 位 置 ， 即 a[i] = x， 而 聚合 则 可 以 看 作 是 利用 数组 下 标 或 索引 从 数组 中 的 任意 位 置 读 出 
数据 ， 即 x= afi]. 

下 和 面 ， 我 们 给 出 CUDA 中 分 散 CScatter) MRA (Gather). 操作 的 结构 示意 图 ， 如 图 3-12 所 
示 。 其 中 ， 每 个 ALU 可 以 看 作 是 一 个 处 理 核心 ， 通 过 分 散 /聚合 操作 ， 多 个 ALU 之 间 可 以 共享 存 
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储 器 ， 实 现 对 任意 地 址 数据 的 读 写 操作 。 


NIZEN 人 
FRENFSESBMESESESESN 


Gather 


NO A IWIN TN 
LaTaTaral — [«TaT«I«] 7 


Scatter 


图 3-12 CUDA 中 分 散 (Scatter) 和 聚合 (Gather). 操作 的 结构 示意 图 


分 散 和 聚合 操作 在 矩阵 运算 任务 中 起 着 至 关 重 要 的 作用 ， 因 为 目前 来 看 这 两 种 变 体 在 
TensorFlow 中 是 把 张 量 编 入 索引 的 唯一 方法 。 换 句 话 说 ， 不 能 像 在 NumPy 中 那样 访问 TensorFlow 
中 的 张 量 元 素 。 分 散 操作 允许 我 们 将 值 分 配给 指定 张 量 的 特定 索引 ， 而 聚合 操作 人 允许 我 们 提取 指定 
张 量 的 切片 〈 或 单个 元 素 ) 。 以 下 代码 显示 了 分 散 和 聚合 操作 的 一 些 变 体 : 


# 1-D scatter 操作 
ref = tf.Variable(tf.constant([1,9,3,10,5],dtype-tf.f10at32), 
name-'scatter update') 
indices - [1,3] 
updates = tf.constant([2,4],dtype-tf.f10at32) 
tf scatter update-tf.scatter update (ref, indices, updates, use locking-None, 
name-None) 
# n-D scatter 操作 
indices = [[1],[31] 
updates = tf.constant([[1,1,1], [2,2,21]]) 
shape = [4,3] 
tf scatter nd 1 = tf.scatter nd(indices, updates, shape, name-None) 
# n-D scatter 操作 
indices = [[1,0],[3,11]] #2 x2 
updates = tf.constant([1,2]) #2 x 1 
shape = [4,3] 4 2 
tf scatter nd 2 = tf.scatter nd(indices, updates, shape, name-None) 
# 1-D gather 操作 
params = tf.constant([1,2,3,4,5],dtype-tf.f10at32) 


indices = [1,4] 
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tf gather = tf.gather (params, indices, validate indices-True,name-None) 
=> [2,5] 

# n-D gather 操作 

params = 
tf.constant([[0,0,0],[1,1,1], [2,2,2], [3, 3,3]], dtype-tf.f£10at 32) 

indices = [[01],[21] 

tf gather nd = tf.gather nd (params, indices, name-None) 
1$-»[[0,0,0],[2,2,21]] 

params = 
tf.constant(lI[0,0,01],11;1,11,[2,2,21;,[3,3,3J]],dtiype-tt.F10at 32) 

indices = [[0,1],[2,21] 

tf gather nd 2 = tf.gather nd(params, indices, name-None) 
1$-»2[[0,0,0], [2, 2, 21] 


4. 比较 与 神经 网 络 相 天 的 运算 或 操作 

下 面 让 我 们 看 看 几 个 很 有 用 的 神经 网 络 运算 或 操作 ， 这 些 将 在 后 面 的 章节 中 使 用 到 。 这 里 , 我 
们 会 对 简单 元 素 的 转换 进行 讨论 , 也 会 对 一 组 参数 对 于 另 一 个 值 的 偏 导 数 的 运算 进行 讨论 , 并 给 出 
一 个 简单 的 神经 网 络 实现 例子 。 


(1) 神经 网 络 的 非 线性 激活 

非 线 性 激活 能 够 使 神经 网 络 很 好 地 执行 许多 任务 。 通 常 ,在 神经 网 络 的 每 一 层 输出 后 (最 后 一 
层 除 外 ) 部会 有 一 个 非 线 性 的 激活 转换 (激活 层 ) 。 非 线性 变换 有 助 于 神经 网 络 学 习 数 据 中 出 现 的 
各 种 非 线 性 模式 。 这 对 于 解决 现实 世界 中 复 末 的 问题 非常 有 用 ， 因 为 与 线性 模式 相 比 ， 数 据 通 常 具 
有 更 复杂 的 非 线性 模式 。 


让 我 们 通过 一 个 例子 来 观察 一 下 非 线性 激活 的 重要 性 。 首 先 ， 回 想 一 下 我 们 在 sigmoid 
示例 中 看 到 的 神经 网 络 的 计算 。 如 果 我 们 忽视 b， 那 将 是 这 样 的 : 


sigmoid (W*x) 
假设 有 一 个 三 层 神 经 网 络 (W1、W2 和 W3 是 层 的 权重 值 ) 其 中 每 层 都 执行 前 面 的 计算 ; 


我 们 可 以 给 出 完整 计算 : 

h = sigmoid (W3*sigmoid (W2*sigmoid (W1*x))) 

但 是 ， 如 果 我 们 删除 非 线性 激活 (sigmoid )， 我 们 就 可 以 得 到 : 

h = (W3 * (W2 * (W1 *x))) = (W3*W2*W1)*x 

因此 ， 在 没有 非 线 性 激活 的 情况 下 ， 可 以 将 三 个 层 降 为 单个 线性 层 。 


如 果 没 有 各 层 之 间 的 非 线性 激活 ,深度 神经 网 络 就 将 是 一 堆 相 互 登 加 的 线性 层 而 已 ,而且 一 组 
线性 层 基本 上 可 以 压缩 成 一 个 更 大 的 线性 层 。 绽 上 上 所 述 ， 如 果 没 有 非 线 性 激活 ， 我 们 束 无 法 创建 具 
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有 多 个 层 的 神经 网 络 。 
现在 ， 我 们 将 列 出 神经 网 络 中 两 种 常用 的 非 线 性 激活 函数 以 及 它们 是 如 何在 TensorFlow 中 实 
现 的 : 


#x HJ Sigmoid 激活 由 1 / (1 + exp (-x) ) 给 出 
tf.nn.sigmoid (x,name-None) 
#x 的 ReLU 激活 由 max (0, x) 给 出 


tf.nn.relu(x, name-None) 


(DS Bas 5 

卷 积 运 算是 一 种 广泛 使 用 的 信号 处 理 技 术 。 对 于 图 像 ， 卷 积 运算 可 以 给 出 不 同 的 图 像 效果 。 这 
里 ， 图 3-13 给 出 了 使 用 卷 积 进行 边缘 检测 (包括 横 回 边缘 检测 和 纵 同 边缘 检测 的 示例 。 我 们 可 
以 通过 在 图 像 项 部 移动 卷 积 过 滤器 以 便 在 每 个 位 置 产生 不 同 的 输出 来 实现 边缘 检测 ， 如 图 3-14 所 
示 ( 在 本 书 第 5 章 介 绍 卷 积 神经 网 络 时 会 详细 解读 卷 积 运算 的 工作 原理 ) 。 有 具体 来 说 , 在 每 个 位 置 ， 
我 们 使 用 与 卷 积 过 滤 船 重 登 的 图 像 块 (与 卷 积 过 滤 名 相同 的 大 小 ) 对 卷 积 过 滤 船 中 的 元 系 进 行 逐 元 
素 乘 法 ， 并 获取 乘法 的 总 和 。 


一 1 -1 -1 
* -l 8 —1 二 
—] 一 -1 


图 3-13 利用 卷 积 运算 在 图 像 中 进行 边缘 检测 示意 图 


源 自 https://en.wikipedia.org/wiki/Kernel (image processing). 


以 下 是 卷 积 运算 的 实现 : 


x — tf.constant( 
[f 
[[11, [21,4 [31^ [41], 
[[41, E31, [2]; E11 ], 
[[51, [6], [7], [81], 
[[8]1, [7], [6]; [51] 
] ] ， 
dtype-tf.float32) 
x filter = tf.constant( 
[ 
[ 
[[0.5]], [[1]] 
E 
[ 
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[[0.5]], EI11] 


dtype-tf.float32) 

x stride = [1,1,1,1] 

x padding = 'VALID' 

X conv = tf.nn.conv2d( 

input-x, filter-x filter, 

strides-x stride, padding-x padding 


) 


这 里 ， 对 于 tconv2d(...) 方 法 中 涉及 的 input ~ filter 和 stride 等 参数 格式 而 言 ，TensorFlow 对 
它们 的 要 求 是 很 精确 的 ,下 面 我 们 将 对 这 些 参 数 (input、filter、strides、padding ) 做 进一步 的 解释 。 


© 输入 (input): 通常 是 四 维 张 量 ,， 其 尺寸 应 按 [batch size，height，width，channels] 排 序 。 
* batch size: 这 是 一 批 数 据 中 的 数据 量 (例如 ， 输 入 的 图 像 和 单词 等 ) 。 我 们 通常 按 
批量 处 理 数 据 , 因为 模型 可 以 使 用 大 型 数据 集 进 行 深 入 学 习 .。 在 给 定 的 训练 步骤 ( step ) 
中 , 我 们 随机 抽样 一 小 部 分 可 以 大 致 代表 完整 的 数据 集 的 数据 ， 然 后 重复 足够 多 次 该 
操作 ， 我 们 便 可 以 很 好 地 逼近 这 个 完整 的 数据 集 。 此 batch size 参数 与 我 们 在 
TensorFlow 输入 管道 示例 中 讨论 的 参数 相同 。 
* height and width: 这 是 输入 的 高 度 和 宽度 。 
* channels: 这 是 输入 的 深度 (例如 ， 对 于 RGB 图 像 ， 将 为 3 通道 ) 。 
e 过 滤器 (filter ): 这 是 一 个 四 维 张 量 , 表示 卷 积 运算 的 卷 积 窗口 。 过 滤器 尺寸 应 为 [height， 
width. in channels. out channels]. 
* height and width: 这 是 滤 镜 的 高 度 和 宽度 (通常 小 于 输入 的 高 度 和 宽度 ) 。 
* in channels: 这 是 图 层 输入 的 通道 数 。 
* out channels: 这 是 在 图 层 输 出 中 生成 的 通道 数 。 
e F (strides): 这 是 一 个 包含 四 个 元 素 的 列表 ， 具 体 为 [batch stride, height stride, 
width stride, channels stride]. 
@ 填充 (padding): 这 里 可 以 选择 [SAME'，'VALID'] 中 的 任何 一 个 选项 。 它 能 够 决定 如 何 
处 理 输入 边界 附近 的 卷 积 运算 。VALID 操作 是 在 没有 填充 的 情况 下 执行 卷 积 。 如 果 我 们 
用 大 小 为 h 的 卷 积 窗口 、 卷 积 长 度 为 n 的 输入 ， 这 将 给 出 输出 的 尺寸 (或 大 小 ) 。 输 出 
尺寸 的 减 小 会 严重 限制 神经 网 络 的 深度 。SAME 将 零 填 充 到 边界 ， 使 输出 具有 与 输入 相 
同 的 高 度 和 宽度 。 
为 了 更 好 地 了 解 过 滤器 大 小 、 步 幅 和 填充 是 什么 ， 请 参见 图 3-14 (我 们 在 本 书 第 5 章 介绍 卷 
积 神经 网 络 时 做 详细 解读 ) 。 
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1x1 + 0.5x2 + 
1x4 + 0.5x3 27.5 


. "c^ -—--w-w-.---- 


R 3-14 卷 积 网 络 运算 示意 图 
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@ 池 化 操作 

池 化 运算 与 卷 积 运算 的 行为 类 似 , 但 最 终 输 出 是 不 同 的 。 我 们 这 里 选取 的 是 该 位 置 中 图 像 patch 
的 最 大 元 素 ， 而 不 是 输出 过 滤器 和 图 像 patch 中 按 元 素 相 乘 得 到 的 总 和 《我们 在 在 本 书 第 $ 章 介绍 
卷 积 神经 网 络 中 会 做 详细 解读 ) ， 如 图 3-15 所 示 。 


x = tf.constant ( 

[I 
[L1]; [21^ [31^ [411, 
[[41, E31, [2]; E11], 
[[5]1, [6]; [7], [81], 
[[8]1, [7]; [61^ [51] 

]1, 

dtype-tf.float32) 


x ksize = [1,2,2,1] 

x stride — [1,2,2,1] 

x padding = 'VALID' 

x pool = tf.nn.max pool( 
value-x, ksize-x ksize, 


strides-x stride, padding-x padding 


max(1,2,4,3)74. ( 
picks the 
element of 
Height 


the blue- 


dashed 
box 


LI 
" "*9*"*9**"*9*"*9*97**97**"**9*9*"* 
* 


Input 
Height 


Input 
Width 


图 3-15 最 大 池 化 运算 示意 图 
代码 运行 后 返回 的 结果 如 下 (完整 代码 和 结果 ， 读 者 可 以 查看 代码 文件 中 的 “二 维 操作 OD 
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卷 积 和 2D 最 大 池 化 ) ”部 分 ) : 


[[[[ 4.] 
[ 4.1], 
[[ 8.] 

[ 8.111] 


DELK 

为 了 让 神经 网 络 模型 能 够 学 习 到 有 用 的 东西 , 我 们 需要 定义 一 个 损失 函数 。 这 里 有 几 种 可 以 自 
动 计算 TensorFlow 中 损失 的 函数 。 其 中 ，tnnl2 los 是 均 方 误差 损失 函数 ， 
t£nn.softmax cross entropy with logits v2 X X Ad A RZL RR ARENAER F BE 
ERARE E. XX Bub RT ERU ERU AE SUR T A ER CIS E P : 

x — tf.constant([[2,4],[6,8]],dtype-tf.f10at32) 

x hat = tf.constant([[1,2],[3,4]],dtype-tf.f10at 32) 

4 MSE = (1**2 + 2**2 + 3**2 + 4**2)/2 = 15 

MSE — tf.nn.12 loss(x-x hat) 

# 神经 网 络 中 用 于 优化 网 络 的 常见 损失 函数 

# 使 用 1ogits《〈 最 后 一 层 的 归 一 输出 ) RERA, 会 使 数值 获得 的 更 加 稳定 

y — tf.constant([[1,0],[0,1]],dtype-tf.f10at32) 

y hat = tf.constant([[3,1],[2,5]],dtype-tf.f10at32) 

# ERAH TREFA IUS EIAS SORIA, RIRE reduce mean 函数 手动 实现 这 一 点 


CE — tf.reduce mean(tf.nn.softmax cross entropy with logits v2(logits-y hat, 
labels-y)) 


神经 网 络 的 优化 

在 定义 了 神经 网 络 的 损失 函数 之 后 , 我 们 的 目标 是 随 着 时 间 的 推移 尽量 减少 这 种 损失 , 这 个 过 
程 就 是 常 说 的 模型 优化 工作 。 换言之 , 优化 器 的 目标 是 找到 为 所有 输入 提供 最 小 损失 的 神经 网 络 参 
A REEM) 。TensorFlow 为 我 们 提供 了 几 种 不 同 的 优化 器 ， 因 此 我 们 不 需要 从 头 开始 实 
现 相 关 模 型 。 

图 3-16 说 明了 一 个 简单 的 优化 问题 ， 并 显示 了 优化 是 如 何 随 时 间 变 化 的 。 该 曲线 可 以 想象 为 
损失 曲线 (对 于 高 维 空间 的 情况 ， 我们 称 之 为 损失 和 面 ) ， 其 中 X 可 以 被 认为 是 神经 网 络 的 参数 〈 在 
这 种 情况 下 ， 是 一 个 单一 权重 值 的 神经 网 络 ) ，y 可 以 被 认为 是 损失 。 我 们 初步 估计 起 始点 是 x=2 
位 置 。 从 这 一 点 开始 ， 我 们 使 用 优化 器 来 实现 在 x=0 处 得 到 最 小 的 y (损失 ) 。 然 而 ， 在 实际 问题 
中 ， 损 失 表 面 不 会 像 图 3-16 中 所 示 的 这 么 简单 ， 它 会 更 加 复杂 。 
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3-16 ”优化 过 程 示 意图 


在 此 示例 中 ， 我 们 使 用 的 是 常见 的 梯度 下 降 优 化 法 : GradientDescentOptimizer. learning rate 
参数 表示 在 最 小 化 方向 上 的 步 长 〈 图 3-16 中 两 个 圆 点 之 间 的 距离 ) : 


上 # 优 化 器 起 到 调整 神经 网 络 参数 的 作用 ， 以 便 最 小 化 工作 任务 中 的 错误 

tf x = tf.Variable(tf.constant (2.0,dtype-tf.f10at32) ,name-'x') 

tf y= tf x**2 

minimize op = tf.train.GradientDescentOptimizer(learning rate-0.1). 


minimize(tf y) 


完整 代码 详 见 代 码 文件 3 tensorflow introduction.ipynb 中 随机 优化 (Stochastic Optimization) 
部 分 。 执 行 该 部 分 代码 后 ， 除 了 会 得 到 图 3-16 之 外 ， 还 会 得 到 如 下 结果 : 


第 1 个 步 长 上 , x: 1.28 , y: 2.5600002 

第 2 个 步 长 上 ，x: 1.0239999 , y: 1.6384 

第 3 个 步 长 上 ,x: 0.8191999 , y: 1.0485759 
第 4 个 步 长 上 ,x: 0.6553599 , y: 0.6710885 


从 上 面 的 代码 运行 结果 来 看 ， 显 然 ， 当 我 们 每 次 调用 session.run(minimize op) 执行 损失 最 小 化 
运算 时 ， 将 会 接近 萎 X 值 ， 进 而 可 以 得 到 最 小 的 萎 y 值 。 


名 控制 流 操作 
顾名思义 ， 控 制 流 操作 控制 图 中 的 执行 顺序 。 例 如 ， 假 设 我 们 需要 按 以 下 顺序 执行 计算 : 


x = xtb5 


Zz = X*2 


实际 上 ， 如 果 x = 2， 我 们 应 该 得 到 z = 14。 下 面 ， 让 我 们 尝试 以 一 种 简单 的 方法 来 实现 这 一 


LJ 
49 


session = tf.InteractiveSession() 

x = tf.Variable(tf.constant(2.0), name-'x') 
x assign op = tf.assign(x, x-*5) 

Z — x*2 

tf.global variables initializer().run() 
print('z-',session.run(z)) 


print('x-',session.run(x)) 
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我 们 期 望 的 输出 结果 是 x= 7 和 z= 14， 而 在 TensorFlow 中 ， 上 面 的 代码 运行 结果 却 是 x= 2 
和 z= 14。 引 起 这 种 错误 的 原因 是 ，TensorFlow 不 关心 对 象 的 执行 顺序 ， 除 非 我 们 在 程序 中 给 出 明 
确 的 执行 顺序 。 我们 本 部 分 讨论 的 控制 流 操 作 ， 就 可 以 实现 执行 指定 顺序 的 操作 。 为 了 得 到 期 望 的 
运行 结果 (x=7 和 z=14) ， 我 们 需要 对 上 述 代码 进行 调整 ， 具 体 如 下 ; 

session = tf.InteractiveSession() 

x — tf.Variable(tf.constant(2.0), name-'x') 

with tf.control dependencies([tf.assign(x, x-*5)]): 

Z — x*2 

tf.global variables initializer().run() 

print('z-',session.run (z)) 

print('x-',session.run(x)) 


session.close() 


这 样 一 来 , 我 们 就 可 以 得 到 想 要 的 结果 (x=7 和 z=14) 了。 这 里 , tf.control dependencies C...) 
方法 是 确保 在 执行 舱 套 操作 之 前 将 会 优先 执行 参数 传递 给 它 的 运算 操作 。 读 者 也 可 以 在 代码 文件 
“调用 给 control dependencies(...) 方 法 ”部 分 执行 这 些 代码 并 查看 运行 结果 。 


3.10 ”变量 作用 域 机 制 


3.10.1 基本 原理 


目前 为 止 ， 我们 已 经 对 TensorFlow 架构 和 TensorFlow 客户 端的 实现 有 了 基本 的 认识 。 但 是 ， 
在 深度 学 习 过 程 中 ， 一 方面 ， 我 们 需要 减少 训练 参数 的 个 数 〈 比 如 CNN 和 LSTM 模型 ) 或 是 面 对 
多 机 多 卡 并 行 化 训练 大 数据 大 模型 (比如 数据 并 行 化 ) 等 情况 ; 另 一 方面 ， 当 我 们 的 深度 学 习 模 型 
变 得 异常 复杂 的 时 候 , 往往 存在 大 量 的 变量 和 调用 方法 , 如 何 有 效 地 维护 这 些 变量 名 称 和 方法 名 称 
的 唯一 性 〈 即 不 重复 ) ， 同 时 又 能 维护 好 一 个 条 理 清 晰 的 图 (Graph) 就 变 得 非常 重要 了 。 这 时 ， 
变量 共享 机 制 就 变 得 非常 重要 。 比 如 ， 我 们 构建 CNN、LSTM 等 模型 时 ， 需 要 使 用 很 多 变量 集 去 
验证 权重 值 (Weight〉 和 偏差 (Bias) 等 训练 参数 ， 非 常 希望 在 输入 不 同 的 数据 时 这 些 参数 是 可 以 
共享 的 (本 书 5.3.4 小 节 “ 参 数 共享 机 制 ” 部 分 会 进行 详细 解读 ) 。 过 去 ， 我们 创建 一 个 全 局 变量 
就 可 以 使 用 了 ， 但 在 深度 学 习 中 则 不 可 以 ， 不 方便 管理 而 且 使 代码 的 封装 性 受到 极 大 影响 。 所 以 ， 
TensorFlow 提供 了 一 种 变量 管理 方法 : 变量 作用 域 机 制 ， 以 此 解决 上 面 出 现 的 问题 。 

关于 变量 作用 域 机 制 ， 有 的 文档 也 叫 共享 变量 机 制 ， 根 据 笔 者 查阅 的 文献 资料 ， 大 部 分 文章 的 
参考 资料 来 和 目 于 TensorFlow 官方 说 明 ( 详 见 https:Wtensorflow.google.cn/guide/variables ) . TensorFlow 
中 是 通过 调用 四 个 函数 来 进行 变量 作用 域 共享 的 ， 这 四 个 函数 是 Variable(<variable_name>)、 
tf.get variable(<variable name»). tfname scope(<scope name>) 和 tf.variable scope(<scope name>). 


下 面 ， 我 们 具体 来 看 一 下 这 几 个 函数 。 
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如 果 使 用 Variable, 那么 每 次 都 会 新 建 变量 , 但 是 大 多 数 时 候 我 们 是 希望 一 些 变量 可 以 重用 的 ， 
所 以 就 用 到 了 get variable. get variableO 会 去 搜索 变量 名 称 ， 搜 索 结 果 如 果 没 有 就 新 建 变 量 ， 如 
果 有 就 直接 使 用 该 变量 。 既 然 用 到 变量 名 称 ， 这 就 会 涉及 名 称 域 的 概念 。 通 过 不 同 的 域 来 对 变量 名 
称 加 以 区 分 , 因为 如 果 让 我 们 给 所 有 变量 都 直接 取 不 同名 字 其 实 是 非常 辛 昔 的 且 没 必要 , 这 就 是 为 
什么 会 用 到 作用 域 (Scope) 的 概念 了 .name scope 主要 用 于 图 (Graph) 中 的 各 种 运算 , variable scope 
可 以 通过 设置 reuse. 标志 以 及 初始 化 方式 来 影响 作用 域 中 的 变量 。 当 然 对 我 们 而 言 ， 还 有 一 个 更 直 
观 的 感受 就 是 : 在 使 用 tensorboard 可 视 化 的 时 候 用 名 字 作 用 域 进行 封装 后 会 更 清晰 。 


3.10.2. ”通过 示例 解读 


假设 我 们 需要 一 个 执行 某 种 计算 的 函数 ， 给 定 w， 需 要 计算 x * w +y** 2。 让 我 们 编写 一 个 
TensorFlow 7 J" ži: 


import tensorflow as tf 

session = tf.InteractiveSession() 

def very simple computation (w): 
x = tf.Variable(tf.constant(5.0, shape-None, dtype-tf.float32),name-'x') 
y-tf.Variable(tf.constant(2.0, shape-None, dtype-tft.float32),name-'y') 
Zz = X'W + y2 


return z 


这 里 ， 为 了 得 到 想 要 的 结果 ， 我 们 可 以 调用 session.run Cvery simple computation (2) ) 函数 
(当然 是 在 调用 t£global variables initializer().runQ FR d J) 。 实 际 上 , 每 次 调用 这 个 函数 时 都 会 
创建 两 个 TensorFlow 变量 ,在 多 次 调用 该 方法 (在 和 面 同 对 象 程序 设计 中 把 封装 的 函数 也 称 为 方法 ) 
时 ， 图 (Graph) 中 x 和 y 变量 不 会 被 蔡 换 ， 相 反 ， 将 会 保留 这 些 旧 变量 ， 并 在 图 (Graph) 中 创建 
新 的 变量 ， 直 到 内 存 不 足 为 止 。 不 管 如 何 ， 最 终 的 结果 是 正确 的 。 为 了 更 好 地 验证 这 个 情况 ， 我 们 
在 for 循环 中 运行 session.run(very simple compnutation(2)) 方 法 ， 并 将 变量 名 称 也 打印 出 来 ,循环 10 
次 的 输出 结果 如 下 《完整 的 代码 请 在 ch3 文件 夹 中 的 3 tensorflow introduction.ipynb 文件 “变量 作 
用 域 机 制 (Variable Scoping) ”部 分 查看 ) : 

14.0 

['x:0", 'y:0', "X 120';, "y 1:0", "X 2:0', "y 2:0", *x 3:20', 'y 3:0", "X 4:0", 
"y 8:U'. Tx 3:0 "y S10", ET 620', "y 6:0", KE IID0', "y TOs 'A BLU", TW B:0"*, 
'x 9:0', 'y 9:0', 'x 10:0', 'y 10:0'] 


每 次 运行 该 函数 时 都 会 创建 一 对 变量 。 如 果 运 行 这 个 函数 100 次 , 那么 计算 图 中 将 有 198 个 过 
时 变量 (99x 变量 和 99y FE) 。 

作用 域 允 许 我 们 重复 使 用 变量 , 而 不 是 每 次 调用 函数 时 都 创建 一 个 新 的 变量 。 我 们 现在 为 上 面 
的 例子 添加 变量 可 复 用 性 的 操作 ， 将 代码 更 改 为 以 下 内 容 : 


def not so simple computation (w): 
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x = tf.get variable('x', initializer-tf.constant (5.0, 
shape-None,dtype-tf.float32)) 
y — tf.get variable('y', initializer-tf.constant (2.0, 
shape-None,dtype-tf.float32)) 
Z = gfw de 
return z 
def another not so simple computation (w): 
x = tf.get variable('x', initializer-tf.constant (5.0, 
shape-None,dtype-tf.float32)) 
y — tf.get variable('y', initializer-tf.constant (2.0, 
shape-None,dtype-tf.float32)) 
Z — w*x*y 
LeGLCUrnA z 
# 这 是 第 一 次 调用 ， 因 此 将 使 用 以 下 名 称 创建 变量 
# x => scopeA/x, y => scopeA/y 
with tf.variable scope('scopeA'): 
zl — not so simple computation(tf.constant(1.0, dtype-tf.float32)) 
# 我 们 重复 使 用 已 创建 的 scopeA/x M scopeA/y 
with tf.variable scope('scopeA',reuse-True): 
z2 — another not so simple computation (zl) 
# 由 于 这 是 第 一 次 调用 ， 因 此 将 使 用 以 下 名 称 创 建 变量 : x => scopeB/x. y => scopeB/y 
with tf.variable scope('scopeB!): 
al — not so simple computation(tf.constant(1.0, dtype-tf.float32)) 
# 我 们 重复 使 用 已 创建 的 scopeB/x 和 scopeB/y 


with tf.variable scope('scopeB',reuse-True): 
a2 — another not so simple computation (al) 
# 假设 我 们 想 再 次 重复 使 用 “scopeA”， 因 为 已 经 创建 了 变量 ， 
# 所 以 我 们 应 该 在 调用 时 将 “reuse” 参 数 设置 为 True 
with tf.variable scope('scopeA',reuse-True): 
zzl — not so simple computation(tf.constant(1.0, dtype-tf.float32)) 


ZZ2 = another not so simple computation (z1) 


在 这 个 例子 中 ， 如 果 执 行 session run ([zl, z2, al, a2, zzl, zz2]) 操作 ， 融 应 该 会 看 到 
z1,22,al,a2,zzl,zz2 的 值 按 顺序 为 9.0,90.0,9.0, 90.0,9.0,90.0 值 。 现 在 ， 如 果 打 印 变量 ， 应 该 只 看 到 
四 个 不 同 的 变量 : scopeA /x. scopeA/y. scopeB /x 和 scopeB /y。 我 们 现在 可 以 在 循环 中 多 次 运 
行 它 ， 而 不 必 担 心 创建 元 余 变 量 和 内 存 不 足 。 

现在 你 可 能 想 知道 , 为 什么 我 们 不 能 在 代码 的 开头 创建 这 四 个 变量 并 在 后 面 的 方法 中 使 用 它们 。 
如 果 这 样 做 ， 就 会 破坏 代码 的 封装 性 ， 因 为 这 样 是 在 明显 地 依赖 于 代码 之 外 的 内 容 。 

最 后 ， 作 用 域 支持 了 可 复 用 性 ， 同 时 也 保留 了 代码 的 封装 性 。 此 外 ， 作 用 域 使 代码 流 更 直观 ， 
减少 了 错误 的 可 能 性 ， 因 为 我 们 通过 作用 域 和 名 称 显 式 地 获取 变量 ， 而 不 是 使 用 TensorFlow 变量 
分 配 的 Python 变量 。 
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3.11 ”实现 一 个 神经 网 络 


目前 ， 我 们 已 经 对 TensorFlow 的 架构 体系 和 作用 域 机 制 有 了 大 体 的 认 知 ， 接 下 来 ， 我 们 将 实 
现 一 个 稍微 复杂 的 模型 , 那 就 是 完全 连接 的 神经 网 络 模 型 。 这 里 使 用 的 数据 集 是 在 深度 学 习 过 程 中 
都 经 常 使 用 的 MNIST 数据 集 〈 详 见 http://yann.lecun.com/exdb/mnist/〉， 利 用 神经 网 络 模 型 能 够 实 
现 对 数字 进行 分 类 。 

由 于 这 是 我 们 的 第 一 个 神经 网 络 示例 ， 因 此 , 我 们 将 逐步 介绍 其 中 的 关键 部 分 。 如 果 要 了 解 程 
序 从 头 到 尾 的 运行 情况 ， 读 者 可 以 在 ch3 文件 夹 中 的 3_tensorflow_introduction.ipynb 文件 “MNIST 
数字 识别 分 类 ”部 分 自行 查验 。 


3.11.1 数据 准备 


首先 , 我 们 需要 调用 maybe download(...) 函 数 来 下 载 数 据 集 ， 并 调用 read_mnist(...) 图 数 对 其 进 
行 预 处 理 。 这 里 ，read mnist(...) 国 数 执行 以 下 两 个 主要 步骤 : 


o 读 取 数据 集 的 字 节 流 并 将 其 形成 适当 的 NUPYP.NDARRY 对 象 。 将 图 像 标准 化 为 零 均值 
和 单位 方差 。 
def read mnist (fname img, fname 1bl): 
print('MnReading files $s and $s'$S(fname img, fname 1bl1)) 
with gzip.open(fname img) as fimg: 
magic, num, rows, cols = struct.unpack("»IIII", fimg.read(160)) 
print (num,rows,cols) 
img = (np.frombuffer(fimg.read(num*rows*cols), dtype-np.uint8). 
reshape (num, rows * cols)).astype(np.float32) 
print('(Images) Returned a tensor of shape ',img.shape) 
# 对 图 像 进 行 标准 化 处 理 
img = (img - np.mean(img))/np.std(img) 
with gzip.open(fname lbl) as flbl: 
HKflbl.read (8) 读 取 最 多 8 个 字 节 
magic, num = struct.unpack("»II", flbl.read(8)) 
lbl = np.frombuffer(flbl.read(num), dtype-np.int89) 
print('(Labels) Returned a tensor of shape: $s'$lbl.shape) 
print('Sample labels: ',1b1[:10]) 


return img, lbl 


3.11.2 定义 TensorFlow 计算 图 


为 了 定义 TensorFlow 计算 图 ， 我 们 首先 为 输入 图 像 (tf input) 和 其 对 应 标签 (tf lab) 定义 占 
位 符 : 
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# 定义 输入 和 输出 

tf inputs = tf.placeholder(shape-[batch size, input size], dtype-tf.float32, 
name = 'inputs!') 

tf labels = tf.placeholder(shape-[batch size, num labels], dtype-tf.float32, 


name = 'labels') 


接 下 来 ， 编 写 一 个 Python KA, "ETE TEUKBIEEAE TE. mew HAE RANEE H RRA 
变量 的 可 重用 性 ， 并 确保 变量 被 正确 命名 : 


# 定义 TensorFlow 相关 变量 
def define net parameters () : 
with tf.variable scope('layerl'): 
tf.get variable(WEIGHTS STRING,shape-[input size,500], 
initializer-tf.random normal initializer(0,0.02)) 
tf.get variable(BIAS STRING, shape-[500], 


initializer-tf.random uniform initializer(0,0.01)) 


with tf.variable scope('layer2'): 
tf.get variable (WEIGHTS STRING,shape-[500,250], 
initializer-tf.random normal initializer(0,0.02)) 
tf.get variable(BIAS STRING, shape-[250], 


initializer-tf.random uniform initializer(0,0.01)) 


with tf.variable scope('output'): 
tf.get variable(WEIGHTS STRING,shape-[250,10], 
initializer-tf.random normal initializer(0,0.02)) 
tf.get variable(BIAS STRING, shape-[10], 


initializer-tf.random uniform initializer(0,0.01)) 

下 面 , 我 们 将 定义 神经 网 络 的 推理 过 程 。 这 里 需要 说 明 一 点 ,就 是 与 没有 使 用 作用 域 的 变量 相 
比 ， 作 用 域 为 函数 中 的 代码 提供 了 非常 直观 的 流程 。 这 里 的 神经 网 络 有 三 层 ， 具 体 如 下 : 

e 具有 ReLU 激活 的 完全 连接 层 (C 1E). 

e 具有 ReLU 激活 的 完全 连接 层 (第 2 层 ) 。 

e 完全 连接 的 softmax Æ (输出 ) 。 

通过 作用 域 , 我 们 将 每 个 层 的 变量 (权重 值 和 偏差 ) 命名 为 layerl / weight. layerl / bias. layer2 
/ weight, layer2 / bias, output / weights 和 output /bias。 在 下 面 的 代码 中 ,它们 都 具有 相同 的 名 称 ， 
但 作用 域 是 不 同 的 : 


# 在 神经 网 络 中 定义 根据 输入 进行 逻辑 推理 的 计算 过 程 
logit 是 将 softmax 应 用 到 最 终 输 出 之 前 的 评估 模型 


def inference (x): 
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# calculations for layer 1 

with tf.variable scope('layerl',reuse-True): 
w,b-tf.get variable(WEIGHTS STRING), tf.get variable(BIAS STRING) 
tf hl = tf.nn.relu(tf.matmul(x,w) + b, name = 'hiddenl') 


# calculations for layer 2 

with tf.variable scope('layer2',reuse-True): 
w,b-tf.get variable(WEIGHTS STRING), tf.get variable(BIAS STRING) 
tf h2 = tf.nn.relu(tf.matmul(tf hl,w) + b, name = 'hiddenl') 


# calculations for output layer 
with tf.variable scope('output',reuse-True): 
wb = tf.get variable(WEIGHTS STRING), 
tf.get variable(BIAS STRING) 
tf logits = tf.nn.bias add(tf.matmul(tf h2,w), b, name = 'logits') 


return tf logits 


现在 , 我 们 将 定义 一 个 损失 函数 并 将 损失 进行 最 小 化 操作 。 损失 最 小 化 操作 是 通过 在 最 小 化 损 
失 方 向 上 对 神经 网 络 参数 进行 微 移 来 开展 的 。TensorFlow 中 提供 了 多 种 优化 器 ， 我 们 在 这 里 将 使 
用 MomentumOptimizer， 它 提供 了 比 GradientDescentOptimizer 更 好 的 最 终 精 度 和 收敛 性 : 

# 定义 损失 函数 

tf loss - 


tf.reduce mean(tf.nn.softmax cross entropy with logits v2(logits-inference(tf 


inputs), labels-tf labels)) 


# 定义 损失 优化 函数 
tf loss minimize = tf.train.MomentumOptimizer (Imomentum=0 .9， 


learning rate-0.01).minimize(tf loss) 


最 后 , 我 们 将 定义 一 个 操作 来 检索 给 定 批量 输入 所 预测 的 softmax 概率 。 这 个 预测 值 将 反 过 来 用 于 计算 
神经 网 络 的 准确 性 : 


# 定义 预测 


tf predictions = tf.nn.softmax(inference(tf inputs)) 


3.11.3 ”运行 神经 网 络 


现在 , 我 们 实现 了 运行 神经 网 络 所 需要 的 所 有 基本 操作 ， 可 以 对 它 进 行 检查 ,看 它 是 否 有 能 力 
学 习 对 图 像 中 的 数字 进行 正确 分 类 : 
for epoch in range (NUM EPOCHS): 


train loss = [] 
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# 训练 阶段 
for step in range(train inputs.shape[0]//batch size): 
# Creating one-hot encoded labels with labels 
# One-hot encoding dight 3 for 10-class MNIST data set will result in 
f I06;0,0;1,0,0,0;0,0,0] 
labels one hot = np.zeros((batch size, num labels),dtype-np.float32) 


labels one hot[np.arange(batch size),train labels[step*batch size: 


(stept*1)*batch size]] = 1.0 


# 运行 优化 程序 

loss, =session.run([tf loss,tf loss minimize],feed dict={ tf inputs: 
train inputs[step*batch size: (steprl)*batch s3126,:], tE labels: 
labels one hot] ) 


train loss.append (loss) 


test accuracy = [] 
# 测试 阶段 
for step in range(test inputs.shape[0]//batch size): 
test predictions = session.run(tf predictions,feed dict-[tf inputs: 
test InpuEsIstep*baLch S1267 ([steprtl)*batch 8s8i126,:11) 
batch test accuracy - accuracy(test predictions, 
test labels[step*batch size: (step*tl)*batch sizel) 


test accuracy.append(batch test accuracy) 


print('Average train loss for the $d 
epoch: $.3fMn'$(epoch*1,np.mean(train 1loss))) 
train loss over time.append(np.mean(train loss)) 
print ('\tAverage test accuracy for the $d 
epoch: $.2fMn'$(epoch*1,np.mean(test accuracy)*100.0)) 


test accuracy over time.append(np.mean(test accuracy)*100) 
在 这 段 代 码 中 ，accuracy(test_ prediction, test tags) 是 一 个 函数 ， 它 接受 一 些 预测 和 标签 作为 输 


入 ， 并 提供 准确 性 〈《 有 多 少 预测 与 实际 标签 匹配 ) 。 最 终 ， 我 们 会 得 到 类 似 于 图 3-17 所 示 的 示意 
图 ， 从 运行 的 结果 来 看 ， 该 模型 表现 良好 ， 读 者 也 可 以 自行 运行 代码 进行 查验 。 
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训练 数据 的 损失 随时 间 的 变化 测试 数据 的 准确 率 随时 间 的 变化 
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3-17 MNIST 数字 分 类 任务 的 训练 损失 和 测试 准确 性 示意 图 
3.12 ”总结 


在 本 章 中 ， 我们 通过 一 些 示例 对 算法 的 主要 底层 平台 (TensorFlow) 有 了 大 体 上 的 认 知 ， 从 而 
迈 出 了 解决 NLP 任务 的 第 一 步 。 

Hc. 我 们 讨论 了 TensorFlow 的 概念 、 主 要 特征 及 其 安装 情况 。 谷 歌 推出 的 TensorFlow 是 一 
个 采用 数据 流 图 .用 于 数值 计算 的 开源 软件 库 。 它 有 一 些 主要 特征 , 例如 自动 求 微分 、 多 语言 文 持 、 
高 度 的 灵活 性 、 可 移植 性 、 性 能 最 优化 等 。 对 于 TensorFlow 的 安装 ， 我 们 重点 介绍 了 Linux 下 的 
安装 情况 。 

其 次 ， 我 们 对 于 TensorFlow 的 三 个 主要 组 成 部 分 〈 计 算 图 、 张 量 和 会 话 ) 进行 了 详细 解读 。 
概括 起 来 讲 ， 我 们 可 以 用 张 量 表示 数据 ， 用 计算 图 搭建 神经 网 络 ， 用 会 话 执 行 计算 图 ， 再 优化 计算 
图 中 线 上 的 权重 值 CERDO 后 得 到 模型 。 

然后 ， 我 们 对 于 TensorFlow 的 工作 原理 进行 了 深度 解读 ， 了 人 解 到 TensorFlow 是 一 个 
“client 一 master 一 Worker” 分 布 式 的 架构 系统 。 

2x Jig fes BJ T s i JT If] HJ LAA master 进行 交 互 ,把 将 要 触发 执行 的 请 求 发送 给 master, Mj master 
则 会 把 全 部 要 执行 的 任务 分 配给 单个 或 多 个 worker， 对 应 的 结果 通过 master 再 返回 给 客户 端 。 作 
为 专注 于 执行 计算 的 worker， 任 何 一 个 worker 进程 都 在 管理 并 使 用 着 整个 计算 硬件 资源 ， 进 而 采 
取 最 优 的 工作 方式 来 计算 子 图 。 

下 面 我 们 通过 一 个 sigmoid 示例 对 TensorFlow 进行 更 深 一 层 的 解读 ， 并 且 在 后 面 结合 该 示例 
对 TensorFlow 的 客户 端 做 了 专门 的 深度 解读 。 

接 下 来 ， 我 们 详细 讨论 了 构成 一 个 典型 TensorFlow 客户 端的 常见 元 素 : 输入 、 变 量 、 输 出 和 
运算 〈 或 操作 ) 。 输 入 是 我 们 提供 给 算法 的 数据 ， 目 的 是 用 于 模型 的 训练 和 测试 。 我 们 讨论 了 三 种 
不 同 的 输入 方式 : 使 用 占 位 符 、 预 加 载 数据 并 将 数据 存储 为 TensorFlow 张 量 以 及 使 用 输入 管道 。 
然后 我 们 讨论 了 TensorFlow 变量 ， 它 们 与 其 他 张 量 的 区 别 ， 以 及 如 何 创 建 和 初始 化 变量 。 之 后 ， 
我 们 讨论 了 如 何 使 用 变量 来 创建 中 间 和 最 终 的 输出 。 最 后 ， 我 们 讨论 了 几 个 可 用 的 TensorFlow 运 
算 或 操作 , 例如 数学 运算 、 和 矩阵 运算 、 神 经 网 络 相 关 的 运算 和 控制 流 的 操作 ， 这 些 运算 和 操作 将 在 
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本 书后 面 使 用 。 在 对 这 些 常见 元 素 解 读 的 过 程 中 , 我 们 逐步 分 析 并 结合 代码 加 以 实现 ,力求 让 每 一 
位 读者 都 能 够 更 直观 地 理解 其 内 在 逻辑 和 实现 机 制 。 

我 们 还 讨论 了 在 实现 TensorFlow 客户 端 时 如 何 使 用 变量 作用 域 来 避免 某 些 缺陷 。 作 用 域 允 许 
我 们 轻松 使 用 变量 ， 同 时 也 能 保持 代码 的 封装 性 。 

最 后 ， 我 们 使 用 之 前 学 习 的 所 有 概念 实现 了 一 个 神经 网 络 ， 我 们 使 用 三 层 神 经 网 络 对 MNIST 
数字 数据 集 进 行 分 类 。 

下 一 章 ， 我 们 将 正式 开始 讲解 NLP 领域 的 重要 模型 : WEA (Word Embedding) . 


IRAE AE WRA (Word Embedding) 被 定义 为 自然 语言 处 理 (NLP) 中 的 一 组 语言 建 
模 和 特征 学 习 技术 的 集体 名 称 ， 其 中 来 自 词 汇 表 的 单词 或 短语 被 映射 成 实数 回 量 。 

词 舱 入 是 一 种 将 文本 中 的 词 转换 为 数字 回 量 的 方法 ,我 们 为 了 使 用 标准 机 器 学 习 算 法 来 对 它们 
进行 分 析 ， 就 需要 把 这 些 被 转换 成 数字 的 向 量 以 数字 的 形式 作为 输入 。 词 坐 入 过 程 就 是 把 一 个 维 
数 为 所 有 词 数 量 的 高 维 空间 骨 入 到 一 个 维 数 低 得 多 的 连续 同 量 空间 中 , 每 个 单词 或 词组 被 映射 
为 实数 域 上 的 同 量 ， 词 艇 入 的 结果 就 是 生成 了 词 向 量 。 

我 们 知道 ， 有 一 种 被 称 为 One-Hot 编码 〈 被 称 为 独 热 码 或 独 热 编 码 ) 的 词 回 量 。One-Hot 编码 
是 最 基本 的 问 量 方法 。 回 顾 一 下 ，One-Hot 编码 通过 词汇 表 大 小 的 同 量 表示 文本 中 的 词 ， 其 中 只 有 
对 应 于 该 词 的 项 是 1 而 所 有 其 他 项 都 是 零 。 

One-Hot 编码 的 主要 问题 是 无 法 表示 词 之 间 的 相似 性 。 在 任何 给 定 的 语料库 中 ， 我们 会 期 望 诸 
如 ( 狗 ， 猫 ) . RET) 之 类 的 词 对 具有 一 些 相 似 性 。 使 用 点 积 计算 问 量 之 间 的 相似 性 。 点 积 是 
回 量 元 素 之 间 元 素 乘 法 的 总 和 。 在 One-Hot 编码 回 量 的 情况 下 , 语料库 中 任何 两 个 词 之 间 的 点 积 总 

为 了 克服 One-Hot 编码 的 局 限 性 ，NLP 领域 借用 了 信息 检索 ORO 技术 ， 使 用 文档 作为 上 下 
文 来 对 文本 进行 矢量 化 。 值 得 注意 的 技术 是 TF-IDF Chttps://en.wikipedia.org/wiki/Tf?6E290809693id£) . 
潜在 语义 分 析 CLSA, https:/en.wikipedia.org/wiki/Latent semantic analysis ) 和 主题 建 模 

( https://en.wikipedia.org/wiki/Topic model) 。 然 而 ， 这 些 技术 获取 到 略微 不 同 的 、 以 文档 为 中 心 
的 语义 相似 性 。 

词 舱 入 技术 的 开发 始 于 2000 F. WRAS AEF IR. 的 技术 的 不 同 之 处 在 于 , 它们 使 用 词 作 
为 其 上 下 文 ， 从 人 类 理解 的 角度 来 看 ， 这 得 到 了 更 自然 的 语义 相似 性 形式 。 今 天 ， 词 嵌入 是 各 种 
NLP 任务 中 文本 回 量化 的 首选 技术 ， 例 如 词性 标注 、 命 名 实体 识别 、 文 本 分 类 、 文 档 聚 类 、 人 情感 
分 析 、 文 档 生 成 、 问 答 系 统 等 。 

在 本 章 中 ， 我 们 将 对 分 布 式 表示 、Word2Vec 的 两 种 模型 、 两 种 模型 对 比 、Word2Vec 扩展 模 


78 | TensorFlow 与 自然 语言 处 理应 用 


型 和 GloVe 模型 进行 探讨 和 分 析 ， 最 后 我 们 介绍 利用 相关 模型 进行 句子 分 类 的 案例 。 这 些 词 仍 入 
技术 已 经 被 证 明 更 有 效 ， 且 已 在 深度 学 习 和 NLP 领域 中 得 以 广泛 采用 。 


4.1 分 布 式 表示 
4.1.1 分 布 式 表示 的 直观 认识 


这 里 有 两 个 句子 : 


e 北京 是 中 国 的 首都 。 
e 华盛顿 是 美国 的 首都 。 


从 这 两 个 句子 中 ， 我 们 可 以 直观 地 意识 到 (北京 ,华盛顿 ) 和 (中 国 , 美国 ) 这 两 对 词 在 某 种 程度 上 
是 相关 的 ， 并 且 相 应 的 词 在 每 对 中 彼此 以 相同 的 方式 相关 ， 即 : 

北京 : 中 国 一 一 华盛顿 : 美国 

因此 ， 分 布 式 表示 (Distributed Representation) 的 目的 是 找到 一 个 变换 函数 中 ， 以 便 将 每 个 词 
转换 为 其 相关 的 回 量 ， 使 得 以 下 形式 的 关系 成 立 : 

中 (“ 北 京 ”)- 中 (“ 中 国 ”) 寺中 (“华盛顿 ”)- 中 (“ 美 国 ”) 

换 句 话说 , 分 布 式 表示 旨 在 将 词 转换 为 同 量 , 其 中 辣 量 之 间 的 相似 性 与 词 之 间 的 语义 相似 性 相 
Je 


有 的 图 书 上 将 GloVe 归 入 Word2Vec, iX 433b, TAER, IAN EXUUIRCRIGSAUS Z 


种 ， 不 论 是 Word2Vec 中 的 两 个 典型 模型 (Skip-gram e CBOW ) 还 是 GloVe 模型 ， 都 是 
处 理 词 误 入 任务 的 技术 手段 ， 但 严格 意义 上 Word2Vec 和 GloVe 之 间 还 是 有 些 区 别 的 。 


4.12 ”分布 式 表 示 解 读 


早期 的 传统 独 热 编 码 表示 (One-Hot Encoding Representation， 如 图 4-1 所 示 ) ， 仅 仅 将 词 进行 
符号 化 ,不 包含 任何 语义 信息 ， 显 然 不 利于 工作 任务 的 有 效 达 成 。 与 独 热 编码 表示 技术 相对 应 的 就 
是 分 布 式 表示 ，Harris 于 1954 年 提出 了 分 布 式 假说 (Distributional Hypothesis) ， 其 观点 是 上 下 
文中 相似 的 词 其 语义 也 相似 。 这 样 一 来 , 在 该 理论 指引 下 , 我 们 可 以 把 信息 分 布 式 地 存储 在 问 量 的 
各 个 维度 中 , 这 种 分 布 式 表 示 方 法 具有 紧密 低 维 、 句法 和 语义 信息 易 获 取 的 特点 。Firth 在 1957 年 
对 分 布 式 假说 做 了 进一步 曾 述 和 明确 : 词 的 语义 由 其 上 下 文 决定 。 
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e 独 热 表 示 ( one-hot representation ) 
* 在 高 维 向 量 中 只 有 一 个 维度 描述 了 词 的 信息 


话 简 :[001000000000000....] 
麦克 :[000000001000000....] 


* 应 用 
* 词 袋 模型 ( bag-of-words, BOW ) 


* 简单 易 实现 
e 缺点 
* BE. HU 
* 没有 词 序 信息 
* 无 法 准确 捕捉 语义 信息 。 词 汇 鸿沟 : 任意 词 之 间 是 孤立 的 ， 即 使 是 同义词 


4-1 传统 的 独 热 编码 技术 表示 


基于 分 布 式 假说 的 词 表示 方法 ， 根 据 建 模 不 同 ， 大 体 可 以 分 为 三 类 : 基于 矩阵 的 分 布 表 示 、 基 
于 聚 类 的 分 布 表 示 和 基于 神经 网 络 的 分 布 表 示 。 尽 管 这 些 不 同 的 分 布 表示 方法 使 用 了 不 同 的 技术 手 
段 获 取 词 表示 , 但 由 于 这 些 方法 均 基于 分 布 式 假说 ， 所 以 它们 的 核心 思想 也 都 由 两 部 分 组 成 : 一 是 
选择 一 种 方式 描述 上 下 文 ; 二 是 选择 一 种 模型 刻画 某 个 词 (“目标 词 ”) 与 其 上 下 文 之 间 的 关系 。 

下 面 给 出 分 布 式 表示 方法 的 三 个 分 类 , 这 里 不 做 过 多 解读 , 感 兴趣 的 读者 可 以 仔细 研读 来 斯 惟 
博士 的 论文 《基于 神经 网 络 的 词 和 文档 语义 回 量 表示 方法 研究 》 中国 科学 院 大 学 自动 化 研究 所 ， 
2016 年 1 月 ) 。 

1. 基于 和 矩阵 的 分 布 表示 

基于 和 匹 阵 的 分 布 表示 主要 是 构建 “ 词 - 上 下 文 ” 窍 阵 ， 通 过 某 种 技术 从 该 窍 阵 中 获取 词 的 分 布 
表示 。 和 矩阵 的 行 表 示 词 ， 列 表示 上 下 文 ， 每 个 元 素 表示 某 个 词 和 上 下 文 共 现 的 次 数 ， 这 样 矩 阵 的 一 
行 就 描述 了 该 词 的 上 下 文 分 布 情况 。 常 见 的 上 下 文 有 : Dx, BI *ij-x Ri" ABE; 上 下 文 的 
f^i, BD "i-i" BEER; (Bn- 元 词组 ， 即 “ 词 -n- 元 组 ” 算 阵 。 和 矩阵 中 的 每 个 元 素 为 词 和 上 下 
文 共 现 的 次 数 ， 通 常会 利用 TF-IDF、 取 对 数 等 方法 进行 加 权 和 平滑 。 另 外 ， 和 矩阵 的 维度 较 高 并 且 
非常 稀 琉 的 话 ， 可 以 通过 SVD, NMF 等 手段 进行 分 解 降 维 ， 变 为 低 维 稠密 矩阵 。 关 于 和 矩阵 的 分 布 
表示 见 图 4-2。 


e 构建 一 “ 词 -上 下 文 ” 和 矩阵 ， 从 和 矩阵 中 获取 词 的 表示 。 和 矩阵 中 ， 每 行 对 应 一 
个 词 ， 每 列表 示 一 种 不 同 的 上 下 文 ， 和 矩阵 中 的 每 个 元 素 对 应 相关 词 和 上 下 文 的 共 现 
信息 。 

选取 上 下 文 : 词 - 文 档 ， 词 - 词 ， 词 -n 元 词组 
确定 矩阵 在 中 元 素 的 值 ， 共 现 次 数 ，TF-IDF 


e 
* 
+ 矩阵 分 解 ，SVD PCA 
* 


e ”代表 模型 LSA 
$ GloVe(Global Vector) 


4-2 ”基于 矩阵 的 分 布 表示 
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2. 基于 聚 类 的 分 布 表示 
通过 聚 类 手段 构建 词 与 其 上 下 文 之 间 的 关系 , 代表 模型 为 布 明 聚 类 (Brown Clustering) 。 


3. 基于 神经 网 络 的 分 布 表 示 
(1) 神经 网 络 语言 模型 (Neural Network Language Model, NNLM) 
Xu 等 人 在 2000 年 首次 尝试 使 用 神经 网 络 求解 二 元 语言 模型 。2001 年 ，Bengio 等 人 正式 提 
出 神经 网 络 语言 模型 。 该 模型 在 学 习 语 言 模型 的 同时 也 得 到 了 词 问 量 ， 有 具体 如 图 4-3 所 示 。 


Iv] 
YX XX) 


U 


H 


x CX )-CXX20JCX XJ 
e(o, ,, 1) e (i-2)) ela; ,) 


原始 文本  — €i (n—1)) AXi —2) C; 1) 


图 4-3 神经 网 络 语言 模型 (NNLM) 
其 中 ， 输 入 层 的 词 向 量 顺序 拼接 为 x = [e (wi_0_y));…;e(w-z));e(wi-p)|: 隐藏 层 h 和 
输出 层 y 分 别 为 : h = tanh(b! + Hx), y =b? +Wx+ Uh; 将 y 转 成 对 应 的 概率 值 : 


P(w; | wit e WW) = _ ono 
Ya exp (y(on)) 


k=1 EXP Y 


而 对 于 整个 语 料 而 言 , 语 言 模型 需要 做 以 下 最 大 化 运算 : 
> logP(w; | wi (n1)... , Wi1) 


Wi—(n— 1), ED 


(2) Log 双 线 性 语言 模型 (LBL) 
2007 年 ，Mnih 和 Hinton 在 神经 网 络 语言 模型 的 基础 上 提出 了 log 双 线 性 语言 模型 


(Log-Bilinear Language Model, LBL) ， 如 图 4-4 所 示 。 
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NLM 


y(e4)—b^*e'( e)! tanh(b' H [e( «x, 4 ;relc 3);e(e, 2)]) 


E (ah; wi (n —1»):U0 1))) | 


LBL 


E(w,; Wg-(n-1):0-1)))= b^*e(«a)' b! + 


e(o) H[e(en s 15); ; el e 2); (e )] 


4-4 Log 双 线 性 语言 模型 


(3) 循环 神经 网 络 语言 模型 (RNNLM) 
Mikolov 等 人 提出 的 循环 神经 网 络 语言 模型 (Recurrent Neural Network based Language Model, 
RNNLM) 直接 对 PO 进行 建 模 , RNNLM 可 以 利用 所 有 的 上 文 信息 预测 下 一 个 词 ， 其 模型 结构 如 
图 4-5 所 示 。 


a 
COCOCOCOe3COCOCOCOCOCOGO 


隐藏 层 h(i) 


原始 文本 nn 
图 4-5 循环 神经 网 络 语言 模型 ORNNLMO 


(4) C&W 模型 
与 前 面 的 三 个 基于 语言 模型 的 词 回 量 生成 方法 不 同 ，Collobert 和 Weston 在 2008 年 提 
出 的 C&W 模型 ( 见 图 4-6) ， 是 第 一 个 直接 以 生成 词 癌 量 为 目标 的 模型 。 


om © 
adii XXY XX XC 
ws xCOXCXO-CXXO CXXO-UCXX 


el «o, ín 12 e (a T e(*) 
原始 文本 — €Uj-(n-1y2) €) 4) * 


e( Oi ain- 1)72 


CCLMi+tn 一 1)/2) 


4-6 C&W 模型 
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就 C&W 模型 〈 见 图 4-60 与 NNLM ( 见 图 4-3) 之 间 的 差异 而 言 ， 主 要 在 于 C&W B 
型 将 目标 词 置 于 输入 层 ， 且 同时 输出 层 也 从 语言 模型 的 |V| 个 节点 变 为 一 个 节点 ， 该 节点 的 
数值 表示 对 这 组 n 元 短语 的 评分 。 评 分 也 仅 有 高 低 之 分 ， 而 不 存在 概率 的 特性 ， 所 以 ， 我 们 
无 需 进行 复杂 的 归 一 化 操作 。C&W 模型 使 用 这 种 方式 把 NNLM 模型 在 最 后 一 层 的 |V| x hl 
次 运算 降 为 b 次 运算 ， 这 样 就 极 大 地 降低 了 模型 的 时 间 复 杂 度 。 这 个 区 别 使 得 C&W 模型 
成 为 神经 网 络 词 向 量 模 型 中 最 为 特殊 的 一 个 ， 其 它 模 型 的 目标 词 均 在 输出 层 ， 只 有 C&W B 
型 的 目标 词 在 输入 层 。 

(5) 著名 的 Word2vec 

Word2vec 包含 两 个 典型 模型 : Skip-gram (SG) 和 Continuous Bag-of-Words (CBOWO ， 如 
图 4-7 所 示 。 


ri e (0) zd »4jJ ] e ( hisin- -1)/2) 


原始 文本  Pi-in-1V2) Oi —1) Chien) AXi (n —1)/2) 


^ 
AN A3 


Tal -[n- ux) e( a, Jelon) 


原始 文本 7 Cu-an-iv2) Ci 一 1 ) €£A 1. 1) 


^(i--in—1)/2) 


4-7] Word2vec 工具 中 的 两 个 模型 


Word2vec 是 谷歌 在 2013 年 推出 的 一 个 NLP 工具 ， 是 从 大 量 文本 语 料 中 以 无 监督 的 方式 学 习 
语义 知识 的 一 种 模型 , 它 的 特点 是 将 所 有 的 词 癌 量化, 这样 我 们 就 能 以 定量 的 方式 去 度量 词 与 词 之 
间 的 关系 ， 挖 掘 词 之 间 的 联系 ， 所 以 Word2Vec 被 大 量 用 于 自然 语言 处 理 (NLP) 中 。Word2Vec 
模型 分 为 两 个 部 分 ， 第 一 部 分 是 建立 模型 ， 第 二 部 分 是 通过 模型 获取 词 回 量 。Word2Vec 整个 建 模 
过 程 实际 上 与 上 自 编 码 器 CAuto-Encoder) 的 思想 很 相似 ， 即 先 基于 训练 数据 构建 一 个 神经 网 络 ， 当 
这 个 模型 训练 好 以 后 ， 我 们 先 不 会 用 这 个 训练 好 的 模型 处 理 新 的 任务 ， 而 真正 需要 的 是 这 个 模型 通过 
训练 数据 所 学 得 的 参数 ， 其 实 这 与 部 分 传统 机 器 学 习 模 型 类 似 〈 比 如 ， 笔 者 博客 《机 器 学 习 实践 之 预 
测 数 值 型 数据 一 一 回归 》 一 文中 提 到 的 通过 训练 算法 寻找 回归 系数 ) ， 例 如 隐藏 层 的 权重 值 定 阵 ， 后 
面 我 们 将 会 看 到 这 些 权重 值 在 Word2Vec 中 实际 上 就 是 我 们 试图 去 学 习 的 词 同 量 (Word Vector). 。 

对 于 整个 语料库 而 言 ， CBOW 优化 的 最 大 目标 为 : 


3. log P(w|c) 


(w,c)cD 


其 中 ，P(w|co) 是 CBOW 模型 根据 上 下 文 的 表示 来 实现 对 目标 词 直接 进行 的 预测 ， 具 体 如 下 : 
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P(w|c) = — eem) 
2_wev EXP (ew) x) 


同样 ， 对 于 整个 语料库 而 言 ，Skip-gram 模型 通过 上 下 文 预测 目标 词 ， 优 化 的 最 大 化 目标 为 : 


S D log Plow) 


(w,c)€D w; Ec 
exp (e'(w)'e(w;)) 


Pe = — re ta E 
2 wieV exp (eu ) e(w;)) 


(6) Order 模型 

上 面 提 到 的 CBOW 模型 和 Skip-gram 模型 为 了 获得 更 高 的 性 能 ， 在 神经 网 络 语言 模型 或 者 
log 双 线 性 语言 模型 的 基础 上 去 反 了 隐藏 层 和 词 序 信 息 。 为 了 更 好 地 分 析 词 序 信息 对 词 回 量 性 能 
影响 ， 这 里 有 一 个 新 模型 ， 名 为 “Order”( 见 图 4-8) ， 意 为 保留 了 词 序 信息 。 该 模型 在 保留 词 序 
信息 的 同时 ， 去 除了 隐藏 层 。 


一 全 
XX X%X X X J 
输入 层 x "^s duh 
e(a, Ín 725), e ( e, 1)) e (coir)) e(o. ia) 


原始 文本 li -(n-1y2) Qj CU, 11) CU. i (n —1)/2) 


4-8 Order 模型 


FH * fg £87 X (Ivan Vendrov) 、 瑞 安 基 洛斯 (Ryan Kiros) ~ Sanja Fidler, iy * 5 
塔 森 (Raquel Urtasun) ft ICLR2016 上 的 论文 《ORDER -E MBEDDINGS OF IMAGES AND 
LANGUAGE》， 提 出 了 一 种 新 的 基于 偏 序 关系 的 分 布 式 表示 问 量 构建 方法 ， 可 以 用 于 图 像 与 文本 
等 领域 ， 并 在 上 下 位 关系 预测 (Hypernym Prediction) 、 标 题 -图 像 检 索 (Caption-ImageRetrieval) 
和 自然 语言 推理 (Textual Entailment / Natural Language Inference) 等 三 个 任务 上 进行 了 实验 ， 取 得 
了 不 错 的 效果 。 文 章 的 最 大 亮点 在 于 基于 偶 序 关系 的 回 量 〈Order-Embedding) 的 构建 ， 如 果 有 时 
间 ， 建 议 读者 看 看 原文 。 

论文 提出 了 一 种 全 新 的 基于 偏 序 关系 的 回 量 学 习 方法 ,将 维持 具有 层次 关系 的 回 量 之 间 的 偏 序 
关系 作为 学 习 的 目标 。 上 下 位 关系 预测 、 标 题 -图 像 检 索 和 上 自然 语言 推理 等 任务 ， 本 质 上 都 是 学 习 
图 像 和 文字 上 偏 序 关系 的 实例 。 如 图 4-9 所 示 ， 图 像 标题 即 为 图 像 的 一 种 抽象 表达 ， 而 标题 本 身 的 
表达 也 抽象 形成 一 个 层次 结构 , 这 种 层次 结构 即 为 一 种 偏 序 关 系 。 上 下 位 关系 预测 和 上 自然 语言 推理 
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等 任务 也 目 然 能 够 转化 为 一 个 学 习 偶 序 关系 的 任务 。 


entity 
skis ha — 9x dog 
"a -— walking 
| woman walking 
woman skiing woman - her dog 


| 


图 4-9 视觉 语义 层次 结构 (部 分 )》 
4.2 Word2vec 模型 (以 Skip-Gram 为 例 ) 


Mikolov 等 人 在 2013 年 的 文献 中 ,同时 提出 了 Skip-Gram 和 CBOW(Continuous Bagof-Words) 
模型 ， 设 计 两 个 模型 的 主要 目的 是 希望 用 更 高 效 的 算法 获取 词 回 量 。 因 此 ， 根 据 前 人 在 NNLM. 
RNNLM 和 C&W 模型 上 的 积累 , 他们 人 简化 了 当时 己 有 模型 且 保 留 了 核心 部 分 , 便 有 了 这 两 个 模型 。 
常见 的 CBOW 和 Skip-Gram 模型 结构 图 如 图 4-10 所 示 。 


INPUT PROJECTION OUTPUT INPUT PROJECTION OUTPUT 


图 4-10 模型 结构 图 : 左 侧 CBOW 模型 ， 右 侧 Skip-Gram 模型 
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Skip-Gram FIAR Je — RURJFH SC*E II] E FALRA WIN BUSES « VEA TEES C— 27 — 2 3 
去 理解 Skip-Gram 算法 .因为 原始 的 Skip-Gram 模型 没有 中 间 隐 藏 层 ,而 目前 使 用 的 优化 Skip-Gram 
模型 存在 中 间 隐 藏 层 ， 为 了 更 好 地 解读 Skip-Gram 模型 ， 所 以 这 里 先 讨论 优化 Skip-Gram 模型 ， 后 
面 会 对 原始 Skip-Gram 和 优化 Skip-Gram 做 一 个 简单 对 比分 析 。 


4.2.1 直观 认识 Word2vec 


上 面 提 到 的 词 回 量 《Word2vec) 是 词 的 数字 表示 ， 保 留 了 词 之 间 的 语义 关系 。 例 如 ， 单 词 cat 
的 向 量 与 单词 dog 的 向 量 就 非常 相似 ， 而 单词 pencil 的 向 量 却 与 词 cat 的 向 量 差 别 很 大 ， 甚 至 完全 
不 同 。 其 实 ， 这 种 词 回 量 间 的 相似 性 取决 于 对 应 的 频率 ， 所 以 这 里 讨论 一 下 两 个 词 〈 如 [catdog] 或 
者 [pencil,cat]〉 在 相同 上 下 文中 的 使 用 情况 。 考 虑 以 下 句子 : 


dog 
cat 


pencil 


I like to pet my 


My does not like the postman 


很 显然 , 在 组 成 上 面 句子 的 过 程 中 , 无 论 是 cat 还 是 dog. 都 比 pencil 更 加 适合 填充 到 空白 处 。 
在 上 面 的 句子 中 ，pencil 无 论 从 拼写 还 是 语法 方面 都 没有 问题 ， 为 什么 它 就 是 不 对 呢 ? 是 因为 这 里 
的 pencil 单词 会 使 得 上 下 文 语义 产生 错误 。 所 以 ，Word2vec 算法 模型 使 用 词 的 上 下 文 来 学 习 词 的 
数字 表示 ， 以 便 在 相同 上 下 文中 所 使 用 的 词 具 有 相似 的 词 回 量 。 


4.2.2 定义 任务 


我 们 现在 解读 一 下 Word2vec 算法 的 机 制 情况 ， 后 面 会 继续 讲解 模型 细节 ， 以 便 我 们 知道 如 何 
实现 Word2vec 算法 。 为 了 以 无 监督 方式 学 习 词 同 量 (数据 没有 被 标记 〉， 我 们 需要 定义 且 完 成 一 
些 任 务 ， 具 体 任务 有 : 

(1) 创建 格式 为 [输入 词 ,输出 词 ] 的 数据 元 组 ， 其 中 每 个 词 都 表示 为 一 个 One-Hot 疝 量 ， 均 来 
自 原始 文本 。 

(2) 定义 出 一 个 模型 ， 将 One-Hot 向 量 作 为 输入 和 输出 进行 训练 。 

(3) 定义 一 个 损失 函数 ， 用 于 预测 正确 的 词 ( 这 些 词 来 自 于 输入 词 的 上 下 文 )， 以 便 优化 模型 。 

CA) 通过 相似 词 有 具有 相似 的 词 回 量 来 评估 模型 。 


这 个 流程 看 似 简 单 ， 其 实在 学 习 词 向 量 的 表现 上 是 超 强 的 ， 下 面 对 相 关 细 节 进 行 解读 。 
4.2.3 从 原始 文本 创建 结构 化 数据 


这 部 分 对 于 原始 文本 的 操作 并 不 复杂 ， 只 是 将 其 置 于 某 个 结构 中 。 下 面 给 出 一 个 例子 ， 这 里 有 
下 面 一 句 话 : 


86 | TensorFlow 与 自然 语言 处 理应 用 


The cat pushed the glass off the table. 


由 上 面 这 句 话 ， 我 们 创建 的 数据 结构 如 图 4-11 AR. ATF FEMER TAXE ER. M 
色 框 表示 One-Hot 输入 词 (中 间 词 ， 也 叫 目标 词 ) ， 红 色 框 表示 One-Hot 输出 词 (上下文 窗口 中 除 
中 间 词 之 外 的 任何 词 均 称 为 上 下 文 词 ) 。 上 下 文 窗口 大 小 越 大 ， 模 型 的 性 能 就 越 好 。 随 着 数据 量 的 
增加 ， 窗 口 的 大 小 也 随 之 增 大 ， 进 一 步 导 致 计算 成 本 快速 上 升 。 注 意 一 点 , 不 要 将 目标 词 与 神经 网 
络 的 目标 《正确 得 出) 混 消 ， 这 是 两 个 完全 不 同 的 东西 。 本 节 内 容 暂 以 Skip-Gram 模型 为 例 进行 解 
释 说 明 。 


Context Window 


m n [nara the [glass] off the table 


4 | The || cat 
| 
cat || pushed 


cat pushed | 
seres [ve] 
pates] vo | 
[ve pins 


图 4-11 例句 数据 结构 示意 图 
这 里 ， 单 个 上 下 文 的 窗口 是 指 从 当前 输入 词 Input Word, BB E Eris]? 的 一 侧 (左边 或 右边 ) 选取 
词 的 数量 。 
如 果 我 们 设置 窗口 大 小 window size=2, 那么 我 们 最 终 获 得 窗口 宽度 为 5 , 窗口 内 容 就 是 “'The' 


'cat'; 'pushed', 'the';'glass'" . 


网 上 有 专栏 文章 多 处 指出 ， 整 个 窗口 大 小 是 2*window size =4， 笔 者 为 此 查阅 多 篇 国外 


原文 资料 ， 最 终 认 为 整个 窗口 宽度 或 大 小 应 该 为 span-22*window size+f1， 有 疑惑 的 地 方 ， 
建议 读者 多 看 几 篇 国外 原文 ， 因 为 也 有 个 别 国 外 文章 中 提 到 span = 2*window size, -4 
了 读者 。 


4.2.4 ”定义 间 舱 入 层 和 神经 网 络 


1. BERAE ( Embedding Layer , tSERKZJERANER ) : 存储 所 有 词 向 量 


词 舱 入 层 存 储 词汇 表 中 找到 的 所 有 词 的 词 同 量 。 你 可 以 想象 到 这 将 是 一 个 巨大 的 矩阵 
( [vocabulary size X embedding size]， 即 [词汇 大 小 X 词 同 量 大 小 ]) 。 这 里 读者 可 以 自行 调整 词 问 
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量 大 小 (Embedding Size) 。 当 然 ， 词 同 量 大 小 越 大 ， 模 型 表现 越 佳 。 结 合 上 面 的 例句 ， 其 流程 图 
如 图 4-12 所 示 。 


cat 

dog 

walk ! 
! Vocabulary 
| Size 

pencil v 


Embedding size 


K 4-12 ise] zr Pu ES 

2. 神经 网 络 : 将 词 回 量 映射 到 输出 

在 训练 期 间 ， 神 经 网 络 利 用 输入 词 去 尝试 预测 输出 词 。 然 后 ,我 们 会 惩罚 模型 的 错误 分 类 以 及 
奖励 模型 的 正确 分 类 。 这 里 对 模型 会 话 做 了 一 些 限制 : 一 次 处 理 单 个 输入 和 单个 输出 。 下 面 是 训练 
期 间 的 流程 : 

CD 对 于 给 定 的 输入 词 ( 目 标 词 ) ， 从 词 艇 入 层 中 找到 相应 的 词 癌 量 。 

(2) 将 词 回 量 输入 神经 网 络 ， 然 后 尝试 预测 正确 的 输出 词 (上下文 词 )。 

(3) 通过 比较 预测 和 真实 的 上 下 文 词 ， 计 算 损失 。 

CA) 利用 损失 函数 和 随机 优化 器 来 优化 神经 网 络 和 词 租 入 层 。 


需要 注意 的 一 点 是 ， 在 计算 预测 时 ， 我 们 使 用 softmax 激活 函数 将 预测 标准 化 为 有 效 的 概率 分 布 。 
425 整合 


下 面 我 们 可 以 将 所 有 部 分 放 在 一 起 来 看 模型 的 全 貌 ， 如 图 4-13 所 示 。 

这 种 数据 的 局 部 排列 和 模型 布局 是 Word2vec 的 Skip-Gram 算法 ,也 是 我 们 本 节 要 关注 的 内 容 。 
另 一 种 算法 称 为 连续 词 袋 (CBOW) 模型 ， 后 面 也 会 单独 阐述 。 

至 此 ， 我 们 可 以 对 于 Skip-Gram 模型 的 概念 结构 和 实施 结构 做 个 小 的 总 结 。 图 4-14 所 示 为 概 
念 结构 图 ， 图 4-15 所 示 为 实施 结构 图 。 
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Context word 
| The | 


ÀA Optimize 
! Compute the loss 一 一 一 一 一 一 一 一 一 一 一 一 一 ”~ 


Prediction vector 


cat 
dog 


walk 


pencil 


Target word 


图 4-13 ”模型 全 貌 示 例 


BECA [word[t]] 


ix AJE (P) (V*D) 


图 4-14 Skip-Gram 模型 概念 架构 图 
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输出 (b#V) 


从 P 中 
选择 
HE? 
EN 
«b 


Inputs (b*1) 


4-15 Skip-Gram 模型 实施 架构 图 


e V: 词汇 量 (语料库 中 的 唯一 词 数 ) 。 

e P: 投影 或 词 艇 入 层 (The Projection or the Embedding Layer) . 
e D: 词 向 量 空间 的 维 数 。 

€ b: 单个 batch 的 大 小 。 


4.2.6 定义 损失 函数 


到 目前 为 止 ， 我 们 还 没有 深入 讨论 Word2Vec 的 一 个 非常 关键 的 话题 ， 那 就 是 损失 函数 。 一般 
情况 下 ， 标 准 softmax 交叉 焙 损 失 函 数 是 分 类 任务 中 一 个 非常 好 的 损失 函数 。 然 而 ， 这 种 损失 函数 
对 Word2Vec 来 说 有 时 并 不 是 很 实用 。 在 现实 工作 任务 中 ， 可 能 涉及 数 十 亿 个 词 ， 词 汇 量 可 以 轻松 
达到 100000 个 或 者 更 多 , 这 就 使 得 softmax 函数 的 归 一 化 变 得 非常 沉重 , 这 是 因为 softmax 的 完全 
计算 需要 计算 所 有 输出 节点 的 交叉 炉 损 失 。 所 以 , 在 保证 模型 性 能 的 前 提 下 ,我 们 需要 转向 使 用 近 
似 且 有 效 的 损失 函数 。 这 样 一 来 ， 对 于 一 个 Word2vec 模型 设计 而 言 ， 最 大 的 挑战 就 变 成 如 何 降低 
softmax 层 的 计算 复杂 度 ， 这 也 是 机 器 翻译 (MT) (Jean 等 ) 和 语言 建 模 (Jozefowicz 等 ) 共同 关 
注 之 处 。 语 言 建 模 中 近似 softmax 的 方法 有 多 种 ， 例 如 : 


多 层次 softmax。 

微分 softmax。 

CNN-softmax. 

基于 采样 (Sampling) 的 方法 。 
妆 重 要 性 采样 

友 具 有 适应 的 重要 性 采样 
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妈 目 标 采样 
* "Sx ed 
友 负 采样 
* E EA 
友 低 频 的 标准 化 
友 其 他 方法 


下 面 只 讨论 一 下 比较 流行 的 近似 选择 : 负 采 样 和 多 层次 softmax 。 
1. softmax 层 负 采样 ( Negative Sampling ) 


对 于 softmax 损失 函数 的 蔡 代 选择 ， 下 面 我 们 将 采用 更 智能 的 痊 代 方案 ， 称 为 sampled softmax 
损失 。 注 意 ， 与 标准 softmax ZXM RAE, LEA TREZ. Hi mee E H PR 
词 所 在 真实 上 下 文 词 的 ID 与 对 应 于 真实 上 下 文 词 ID KHAMAL R, RU RII 
据 一 些 噪声 分 布 添加 了 采样 的 K 个 负 样 本 的 交叉 燃 损 失 。 这 束 是 我 们 说 的 对 softmax 层 进行 负 末 样 。 
实际 数据 为 (输入 — 输出 ) ， 噪 声 为 〈K-many 虚拟 噪声 输入 — 输出 ) 。 借 助 于 噪声 ， 是 指使 用 
不 属于 目标 词 所 在 上 下 文 的 词 创 建 的 与 实际 词 对 (输入 一 输出 ) 不 相符 的 ， 即 使 用 〈K-many 虚 
拟 噪声 输入 一 输出 ) 词 对 。 我 们 还 将 softmax 激活 函数 蔡 换 为 sigmoid 激活 函数 (也 称 为 逻辑 函数 )。 
这 人 允许 我 们 在 保持 [0,1] 范 围 内 输出 的 同时 , 也 可 以 去 除 损 失 函 数 对 整个 词汇 表 的 依赖 。 在 较 高 的 层 
面 上 ， 我 们 将 损失 定义 如 下 : 

Loss = SigmoidCrossEntropy(Prediction, CorrectW ord) 
K 


t > E(woiseip)SigmoidCrossEntropy(Prediction, NoiseID) 
1 


SigmoidCrossEntropy 是 我 们 可 以 在 单个 输出 节点 上 定义 的 损失 ， 与 其 余 节 点 无 关 。 这 使 它 成 
为 我 们 分 析 问 题 的 理想 选择 , 因为 我 们 的 词汇 量 会 变 得 非常 大 .我 们 不 会 深入 研究 这 种 损失 的 细节 ， 
也 不 需要 了 解 这 是 如 何 实现 的 ， 因 为 它们 可 以 作为 TensorFlow 中 的 内 置 函数 使 用 ， 但 理解 损失 中 
涉及 的 参数 (例如 区 K) 很 重要 。 sampled softmax 损失 通过 考虑 两 种 类 型 的 实体 来 计算 损失 : 


e 由 预测 向 量 (上 下 文 窗口 中 的 词 ) 中 的 真实 上 下 文 词 ID 给 出 的 索引 。 
e 词 甩 表示 的 KK 个 索引 ， 被 认为 是 噪声 (上下文 窗口 之 外 的 词 ) 。 


负 采 样 是 噪声 对 比 估计 (Noise-Contrastive Estimation, NCE) 方法 的 近似 ， 根 据 NCE 可 知 ， 
一 个 好 的 模型 应 该 通过 逻辑 回归 来 区 分 真实 数据 和 噪声 , 实际 上 负 末 样 既 很 好 地 保留 了 模型 的 性 能 
又 很 好 地 做 到 有 效 损 失 的 近似 。 

结合 上 面 的 例子 来 说 明 这 一 点 ， 如 图 4-16 所 示 。 
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| The cat pushed :the glass off the table 


— CCTITTTTTTTITTTTTTPPS — 


———— 


Positive The | car 
Samples 
cat | pushed 
Negative cat | - 
Samples | 9 


————— —  —— ——— HH Ó— Y — 


4-16 softmax 层 负 采 样 示例 
2. 多 层次 softmax ( Hierarchical softmax ) 


多 层次 softmax (H-softmax) 是 Morin 和 Bengio 受到 二 叉 树 启发 而 得 出 的 方法 。 从 根本 上 来 
说 ，H-softmax 是 用 词语 作为 叶子 的 多 层 结构 来 蔡 代 原 softmax 的 一 层 ， 如 图 4-17 所 示 。 


Trl 叶子 was 
P: — 4 P(qo—0) P ( &X,) — jx P ( qo — 1) 
叶子 Wi 叶子 W2 


P(c5)-—,.,P(qi1-—0) P(cec»)—,,P(q,—1) 
图 4-17 多 层次 softmax 图 示 


这 样 一 来 , 对 于 单个 词 出 现 概 率 的 计算 就 可 以 被 分 解 为 一 连 串 的 概率 计算 , 我 们 也 就 无 须 再 对 
所 有 词 进行 高 成 本 的 标准 化 计算 处 理 。 用 H-softmax 来 替代 单一 的 softmax 层 可 以 大 大 提升 预测 
词 的 速度 ， 有 研究 表明 ， 至 少 带 来 50 倍 的 提升 ， 因 此 特别 适用 于 要 求 低 延迟 的 工作 任务 ， 比 如 谷 
歌 的 新 通信 软件 Allo 的 实时 沟通 功能 便 是 如 此 。 

我 们 如 果 把 常规 的 softmax 层 想象 成 只 有 一 层 的 树 , 每 个 V 中 的 词 均 是 一 个 叶子 节点 ， 那 么 在 
计算 一 个 词 softmax 层 的 概率 时 ， 就 需要 标准 化 所 有 |VI| 个 叶子 的 概率 ， 显然 计算 成 本 非常 高 。 如 果 
把 softmax 层 当 成 每 个 词 都 是 叶子 的 一 棵 二 又 树 ， 则 只 需要 从 叶子 节点 开始 沿 着 树 的 路 径 行走 ， 就 
可 以 抵达 指定 的 词 ， 而 无 须 考 虑 其 他 词 ， 显 然 这 种 方法 更 佳 。 

多 层次 softmax 比 负 采样 略微 复杂 ， 但 与 负 采 样 的 目标 相同 。 与 负 采 样 的 不 同 之 处 是 多 层次 
softmax 仅 使 用 实际 数据 而 不 需要 噪声 。 我 们 通过 一 个 例子 来 做 进一步 解读 。 例 如 , 有 下 面 一 句 话 : 


I like NLP. Deep learning is amazing. 


上 面 这 个 句子 的 词汇 如 下 : 
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I, like, NLP, Deep, learning, is, amazing 
使 用 这 个 词汇 表 ， 可 以 构建 一 棵 二 又 树 ， 其 中 词汇 表 中 的 所 有 词 都 以 叶子 节点 的 形式 出 现 。 我 
们 还 将 添加 一 个 特殊 的 标记 PAD， 以 确保 所 有 树叶 都 有 两 个 成 员 ， 如 图 4-18 所 示 。 
每 个 softmax 节 点 表示 为 给 定单 词 选择 左 / 右 分 支 的 概率 。 例 如 P(right at 2|NLP)=1-P(left at 2/NLP) 


depth — log,( WV ) 


I like NLP deep learning is amazing PAD 


V 
图 4-18 所 有 词 以 叶子 节点 出 现 
接着 ， 最 后 一 个 隐藏 层 将 完全 连接 到 层次 结构 中 的 所 有 节点 。 这 里 与 经 典 的 softmax 层 相 比 ， 
该 模型 具有 相似 的 总 权重 值 ， 但 是 ， 对 于 给 定 的 计算 ， 它 仅 使 用 其 中 一 部 分 。 
如 果 我 们 要 计算 P (NLP | like) 的 概率 ， 只 需要 一 个 权重 值 子 集 来 计算 概率 即 可 ， 其 中 like 
是 输入 词 ， 如 图 4-19 所 示 。 
KAZMA (Z; ) 


OF 


mw 
mw 
s ndi * 


MOL, ERD (V — 1) 
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I like NLP deep learning is amazing PAD 
图 4-19 ”利用 权重 值 子 集 来 计算 概率 
具体 来 说 ， 计 算 概率 如 下 : 
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( NLP | like ) = P ( left at 1| like ) X P (right at 2 | like ) X P ( left 
at 5 | like ) 


由 于 知道 了 如 何 计算 PO， 我 们 便 可 以 使 用 原始 损失 函数 。 注 意 ， 该 方法 仅 使 用 连接 到 路 径 中 
节点 的 权重 值 进行 计算 ， 从 而 使 得 计算 效率 很 高 。 

尽管 多 层次 softmax 是 有 效 的 ,但 是 一 个 重要 的 问题 仍然 值得 注意 , 那 就 是 如 何 确定 树 的 分 解 。 
更 准确 地 说 ， 哪 个 词 会 跟随 哪个 分 文 。 下 面 给 出 两 个 解决 方案 。 


(OD 随机 初始 化 层次 结构 : 事实 上 ， 此 方法 会 使 模型 的 一 些 性 能 下 降 ， 因 为 无 法 保证 随机 分 
配 在 词 之 间 的 分 支 是 最 佳 的 。 

(2) 使 用 WordNet 确定 层次 结构 : WordNet 可 用 于 确定 树 中 词 的 合适 顺序 。 该 方法 明显 表现 
出 比 随机 初始 化 更 好 的 性 能 。 


4.27 利用 TensorFlow 实现 Skip-Gram 模型 


接 下 来 我 们 将 使 用 TensorFlow 来 实现 Skip-Gram 算法 。 在 这 里 ， 我 们 将 仅仅 讨论 涉及 定义 
TensorFlow 的 操作 以 便 进 行 学 习 词 癌 量 的 部 分 。 完 整 代 码 可 在 ch4 文件 夹 下 的 
4 skip-gram CBOW(improved).ipynb 中 找到 。 

这 里 下 载 的 数据 集 包 含 多 个 维基 百科 文章 ， 总 计 大 约 61MB 。 数 据 集 来 源 见 链接 
http://www.evanjones.ca/software/wikipedia2text.html . 

首先 定义 模型 的 超 参数 。 你 可 以 自由 更 改 这 些 超 参数 的 值 以 查看 它们 如 何 影 啊 最 终 的 性 能 ( 例 
W, batch size = 16 或 batch size- 256) 。 有 具体 如 下 : 


batch size = 128 

embedding size = 128 4 词 同 量 的 维 数 

window size = 4 # 左 右 两 边 各 考虑 多 少 个 词 

valid size = 16 # 用 于 评估 相似 性 的 随机 词 集 

# 仅 在 分 布 的 头 部 选择 开发 样本 

valid examples = np.array(random.sample(range(valid window), valid size)) 

valid examples = np.append(valid examples,random.sample (range (1000, 
l000-rvalid window), valid size),axis-0) 


num sampled = 32 # 要 抽样 的 负 样 例 数 量 
接 下 来 ， 为 训练 输入 数据 集 、 标 签 和 有 效 输 入 定义 TensorFlow 占 位 符 : 


train dataset = tf.placeholder(tf.int32, shape-[batch size]) 
train labels = tf.placeholder(tf.int32, shape-[batch size, 11) 
valid dataset = tf.constant(valid examples, dtype-tf.int32) 


然后 ， 为 词 艇 入 层 和 softmax 层 的 权重 值 及 偏差 定义 TensorFlow 变量 : 


embeddings —tf.Variable(tf.random uniform([vocabulary size, embedding size], 


-a0 1;0)] 
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softmax weights = tf.Variable(tf.truncated normal([vocabulary size, 


embedding size], stddev-0.5 / math.sqrt(embedding size))) 


softmax biases = tf.Variable(tf.random uniform([vocabulary size],0.0,0.01)) 
接 下 来 ， 我 们 将 定义 一 个 词 回 量 查找 操作 ， 该 操作 收集 指定 训练 数据 集 对 应 的 词 回 量 : 
embed = tf.nn.embedding lookup(embeddings, train dataset) 


之 后 ， 我 们 将 使 用 负 采 样 来 定义 softmax 损失 : 


loss = tf.reduce mean(tf.nn.sampled softmax loss(weights-softmax weights, 


biases-softmax biases,inputs-embed, labels-train labels, 


num sampled-num sampled, num classes-vocabulary size)) 


在 这 里 ， 我 们 定义 一 个 优化 器 来 优化 (最 小 化 ) 前 面 定义 的 损失 函数 。 我 们 也 可 以 尝试 使 用 
https:// tensorflow.google.cn /api guides/python/train 中 列 出 的 其 他 优化 器 进行 试验 : 


optimizer = tf.train.AdagradOptimizer(1.0).minimize(loss) 


计算 验证 输入 词 示例 和 所 有 词 向 量 之 间 的 相似 性 。 使 用 余弦 距离 


norm — tf.sqrt(tf.reduce sum(tf.square(embeddings), 1, keepdims-True)) 


normalized embeddings - embeddings / norm 


valid embeddings = tf.nn.embedding lookup(normalized embeddings, 


valid dataset) 
similarity — tf.matmul(valid embeddings,tf.transpose(normalized embeddings)) 


在 定义 了 所 有 TensorFlow 变量 和 操作 后 ， 现 在 可 以 继续 执行 一 些 操作 ， 这 里 会 简要 给 出 这 些 
操作 的 基本 过 程 ， 有 具体 的 完整 过 程 请 参见 对 应 的 代码 文件 。 
(1) fEH]t£global variables initializer0 初 始 化 TensorFlow 变量 .run0)。 
(2) 对 于 每 个 步骤 〈 预 定义 的 总 步骤 数 ) ， 请 执行 以 下 操作 : 


使 用 数据 生成 器 生成 一 批 数据 (batch_data - inputs, batch labels -outputs) 。 
创建 一 个 名 为 feed dict 的 字典 ， 将 训练 输入 /输出 占 位 符 映 射 到 数据 生成 器 生成 的 数据 : 
feed dict = (train dataset: atch data, train labels: batch labels) 
执行 优化 步骤 并 获取 损失 值 ， 如 下 所 示 : 

1 = session.run ([optimizer, loss], feed dict = feed dict) 


最 终 ，Skip-Gram 模型 借助 t-SNE 技术 对 于 相关 数据 进行 可 视 化 后 的 效果 如 图 4-20 所 示 。 
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图 4-20 Skip-Gram 模型 可 视 化 效果 图 示 


将 图 4-20 中 的 部 分 结果 放大 ， 如 图 4-21 所 示 。 
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图 4-21 Skip-Gram 模型 可 视 化 部 分 放大 效果 图 示 
从 放大 的 结果 来 看 ， 这 样 的 分 类 结果 还 是 符合 预期 的 ， 其 余部 分 的 分 类 结果 , 读者 可 以 自行 查 
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4.3 原始 Skip-Gram 模型 和 改进 Skip-Gram 模型 
对 比分 析 


到 目前 为 止 ， 讨 论 的 Skip-Gram 算法 实际 上 是 对 Mikolov 等 人 在 2013 年 出 版 的 原始 论文 中 提 
出 的 原始 Skip-Gram 算法 的 改进 模型 。 在 本 节 中 ， 我 们 先 看 一 下 原始 的 Skip-Gram 算法 。 

原始 Skip-Gram 算法 在 进行 表示 学 习 时 , 没有 使 用 中 间 隐 茂 层 ， 所 以 在 代码 实现 过 程 中 不 会 设 
置 softmax weights 和 softmax biases 等 神经 网 络 参数 ， 因 为 它 只 有 输入 层 和 输出 层 ， 如 图 4-22 所 
示 ， 并 定义 了 一 个 从 词 器 量 本 号 派生 的 损失 函数 。 


iÈ fU iik A 
MÀ —— 


gem em cm eum Oum GU a emp 09 eu eu Oum eu oq 


输入 嵌入 
HIRA 


4-22 不 含 隐藏 层 的 原始 Skip-Gram 算法 
对 于 原始 Skip-Gram 算法 而 言 ， 其 负 采 样 损失 定义 如 下 : 
(N—m) (i+m) 


/0=- (ma) 2.002. oo(e(reoroo) 


(i=m+1) (jz#iAj=i—m) 
十 KE (CW )~(Pa(w))) |logo (~v'(w jvew) )| 


这 里 ,是 输入 词 嵌入 层 ,v 是 输出 词 嵌 入 层 ,wwn 对 应 于 输入 词 嵌入 层 中 词 w 的 词 向 量 ,而 yw) 
对 应 于 输出 词 嵌 入 层 中 词 w 的 词 向 量 。P,(w) 是 噪声 分 布 ， 我 们 从 中 对 噪声 样本 进行 采样 。 最 后 ， 
巨 表示 从 攻 负 样 例 获得 的 损失 期 望 〈 平 均值 ) 。 正 如 我 们 看 到 的 ， 除 了 词 向 量 本 身 之 外 ， 此 等 式 中 
没有 权重 值 和 偏差。 


4.3.1 原始 的 Skip-Gram 算法 的 实现 


原始 的 Skip-Gram 算法 在 计算 损失 函数 时 ， 需 要 使 用 TensorFlow 函数 手工 完成 ， 因 为 其 中 缺 
少 内 置 函数 来 计算 损失 。 完 整 代码 见 ch4 文件 夹 下 4 comparison.ipynb 文件 。 
首先 ， 为 输入 数据 集 和 输出 数据 集 各 定义 一 个 占 位 符 : 


train dataset = tf.placeholder(tf.int32, shape-[batch size]) 
train labels = tf.placeholder(tf.int64, shape-[batch size, 11) 


通过 定义 输入 和 输出 占 位 符 ， 我 们 可 以 调用 TensorFlow 内 置 函 数 candidate sampler 进行 负 采 
样 ， 代 码 如 下 所 示 : 


negative samples, , = tf.nn.log uniform candidate sampler( 
train labels, num true-1l, 
num sampled-num sampled, 
unique-True, 


range max-vocabulary size) 


在 这 里 ， 我 们 统一 对 负 样 例 进行 抽样 。 接 着， 我 们 有 num tme 的 数量 ， 它 表示 给 定数 据点 的 
真实 类 的 数量 。 接 下 来 是 我 们 想 要 一 批 数据 的 负 样 本 数 (num sampled) ， 而 unique 参数 来 定义 
负 样 本 是 否 应 该 是 唯一 的 。 最后, range_max 定义 一 个 词 具有 的 最 大 ID， 使 得 采样 时 避免 采 到 无 效 
词 ID。 

模型 除去 softmax 的 权重 值 和 偏差 之 后 ， 我 们 引入 两 个 词 区 入 层 ， 一 个 用 于 输入 数据 ， 男 一 个 
用 于 输出 数据 。〈( 这 里 需要 两 个 词 租 入 层 ， 因 为 只 有 一 个 词 舱 入 层 ， 损 失 函 数 将 不 起 作用 。) 

接 下 来 , 将 编写 代码 中 最 重要 的 部 分 一 一 定义 损失 函数 。 这 段 代码 实现 了 我 们 前 和 面 讨论 过 的 损 
AER. 但是, 我 们 不 会 立即 计算 文档 中 所 有 词 的 损失 ， 因 为 如 果 文 档 太 大 的 话 可 能 会 引起 内 存 注 
出 。 因 此 ， 我 们 将 会 计算 单个 时 间 步 长 内 的 小 批量 数据 的 损失 。 完 整 代码 可 在 ch4 文件 夹 中 的 
4 word2vec improvements.ipynb 文件 中 找到 : 


# 计算 正 样 本 的 损失 
loss = tf.reduce mean( 
ti -Logi 
tf.nn.sigmoid( 
tf.reduce sum( 
tf.diag([1.0 for | in range(batch size)])* 
tf.matmul(out embed,tf.transpose(in embed)), 


axis-0) 


) 
) 
# 计 算 负 样本 的 损失 
loss += tf.reduce mean( 


tf.reduce sum( 
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tf.log(tf.nn.sigmoid(-tf.matmul(negative embed,tf.transpose(in _ embed) ) ) ) ， 
axis-0 


) 


TensorFlow 通过 定义 较 小 的 权重 值 和 偏差 子 集 来 实施 sampled softmax loss， 这 些 权重 值 


和 偏差 仅 需 要 处 理 当前 批量 数据 即 可 。 此 后 , TensorFlow 计算 类 似 于 标准 softmax X JÀ 
计算 的 损失 , 但 是 由 于 没有 softmax 权重 值 和 偏差 ,因此 我 们 无 法 直接 转换 为 该 方法 来 计 
算 原始 的 Skip-Gram 损失 。 


4.3.2 将 原始 Skip-Gram 与 改进 后 的 Skip-Gram 进行 比较 


通过 代码 的 运行 , 我们 针对 原始 Skip-Gram 与 改进 后 的 Skip-Gram 算法 在 计算 损失 效果 上 进 
了 对 比 ， 详 见 图 4-23. 
原始 与 改进 Skip-Gram 模 型 的 损失 随 着 时 间 的 推移 而 发 生 的 变化 


die Skip-Gram (改进 的 ) 
一 一 Skip-Gram (原始 的 ) 


80000 100000 


40000 60000 
AERA (Iterations) 


4-23 ”原始 Skip-Gram 与 改进 Skip-Gram 的 损失 变化 


我 们 可 以 清楚 地 看 到 ， 与 没有 隐藏 层 相 比 ， 拥 有 隐藏 层 的 Skip-Gram 算法 会 带 来 更 好 的 性 能 
这 也 表明 拥有 更 深层 神经 网 络 结构 的 Skip-Gram 模型 往往 表现 更 好 ， 当 然 对 于 Word2vec 模型 而 计 
也 是 同样 的 道理 。 


4.4 CBOW 模型 


44.1 CBOW 模型 简 述 


这 里 再 简要 提 一 下 Word2vec 模型 结构 .Word2vec 是 使 用 单个 隐藏 层 且 完全 连接 的 神经 网 络 ， 
如 图 4-24 所 示 。 其 中 ， 隐 藏 层 中 的 神经 元 都 是 线性 神经 元 ， 输 入 层 设置 了 与 用 于 训练 的 词汇 中 词 
一 样 多 的 神经 元 ， 隐 藏 层 大 小 与 生成 词 回 量 的 维度 一 致 ， 且 输出 层 的 大 小 与 输入 层 相 同 。 因 此 ， 假 
设 用 于 学 习 词 问 量 的 词汇 表 由 天 个 词组 成 并 且 词 回 量 的 维度 为 W， 则 隐藏 层 连接 的 输入 大 小 可 以 
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用 VXN PIERE WI 表示， 每 行 表示 一 个 词 ; 同 理 ， 可 以 用 NXTV 的 矩阵 WO 来 描述 从 隐藏 层 到 答 
出 层 的 连接 。 在 这 种 情况 下 , WO 和 窃 阵 的 每 列表 示 来 和 目 给 定 词汇 表 的 词 。 这 里 使 用 One-hot 编码 ( 独 
热 编 码 ) 对 于 所 有 的 输入 进行 编码 。 


4-24 Word2vec 概念 图 
在 Skip-Gram 模型 中 ， 我 们 预测 了 目标 词 中 的 上 下 文 词 ， 但 是 ， 在 CBOW 模型 中 ， 我 们 将 从 
上 下 文 词 预 测 目 标 词 。 让 我 们 通过 下 面 的 句子 来 比较 Skip-Gram 和 CBOW: 


The dog barked at the mailman. 


对 于 Skip-Gram, 数据 元 组 (输入 词 ,输出 词 ), 可 以 表示 为 (dog, the). (dog, barked), (barked, dog) 等 。 
对 于 CBOW， 数 据 元 组 可 以 表示 为 : ([the, barked], dog). ([dog, at], barked) 等 。 


因此 ，CBOW 的 输入 具有 2XmXD 的 维度 ， 其 中 m 是 窗口 大 小 、D 是 词 癌 量 的 维度 。 CBOW 
的 概念 模型 如 图 4-25 所 示 。 


4-25 CBOW 概念 结构 示意 图 


在 图 4-25 中 ， 隐 藏 层 的 输出 是 输入 层 处 对 应 上 下 文 词 向 量 的 平均 向 量 。 由 于 CBOW 模型 与 
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Skip-Gram 模型 非常 相似 , 因此 这 里 就 不 再 做 过 多 解读 。 下 面 ,我 们 将 通过 TensorFlow 来 实现 CBOW 
算法 。CBOW 的 完整 实现 可 以 在 ch4 文件 夹 的 4 skip-gram CBOW(improved).ipynb 中 找到 。 


4.4.2 ”利用 TensorFlow 实现 CBOW 算法 


首先 ， 我 们 定义 相关 变量 ， 这 与 Skip-Gram 模型 的 情况 相同 : 
dig] AJ: 


embeddings = tf.Variable(tf.random uniform([vocabulary size,embedding size], 
-1.0, 1.0, dtype-tf.f10oat32)) 

#softmax 的 权重 值 和 偏差 

softmax weights = tf.Variable(tf.truncated normal([vocabulary size, 


embedding size],stddev-1.0 / 
math.sqrt (embedding size),dtype-tf.f10oat32)) 


softmax biases -tf.Variable(tf.zeros([vocabulary size],dtype-tf.float32)) 


在 这 里 ， 我 们 创建 了 一 组 骆 加 的 词 同 量 ， 代 表 了 上 下 文 的 每 个 位 置 。 所 以 我 们 将 有 一 个 和 矩阵: 
[batch size, embeddings size, 2 * context window size]。 然 后 ， 我 们 将 使 用 简化 运算 符 对 最 后 一 个 
轴 上 的 堆 靶 词 同 量 进行 平均 ， 以 便 将 堆 针 和 矩阵 减 小 为 [batch size, embedding size]: 


stacked embedings = None 
for i in range (2*window size): 
embedding i = tf.nn.embedding lookup(embeddings,train dataset[:,il) 
X Size,y size — embedding i.get shape().as list() 
if stacked embedings is None: 
Stacked embedings = tf.reshape(embedding i,[x size,y size,l]) 
else: 
Stacked embedings 
—tf.concat(axis-2,values-[stacked embedings,tf.reshape (embedding i, 
[X Si1Z6,y sizel]]l) 
assert stacked embedings.get shape().as list()[2]--2*window size 


mean embeddings = tf.reduce mean (stacked embedings,2,keepdims-False) 


此 后 ， 像 Skip-Gram FREA — FEE E AIR R ER RRA 8 : 


loss = tf.reduce mean ( 

tf.nn.sampled softmax loss(weights-softmax weights,biases-softmax biases,in 
puts-mean embeddings, 

labels-train labels,num sampled-num sampled,num classes-vocabulary size)) 


optimizer = tf.train.AdagradOptimizer(1.0).minimize(loss) 


运行 CBOW 模型 后 ， 最 终 得 到 的 结果 如 下 《部 分 展示 ) : 
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第 94000 步 长 上 的 平均 损失 : 2.087824 

第 96000 步 长 上 的 平均 损失 : 2.111227 

第 98000 步 长 上 的 平均 损失 : 2.094030 

第 100000 步 长 上 的 平均 损失 : 2.101904 

与 that 最 接近 的 单词 : which, how, what, heroes, jogaila, pro, acoustics, taxa, 

与 put 最 接近 的 单词 : however, although, though, which, patriots, calories, 
internationalist, thracian, 

与 or 最 接近 的 单词 : and, 3,900, solidifying, and/or, fictions, branching, than, 
afl-cio, 

LH this 最 接近 的 单词 : it, monna, 1786, mesons, another, 2.25, aptera, 
archaefructus, 

与 the 最 接近 的 单词 : macflecknoe, joaquim, spellings, separator, a, tcb, heikki, 
elision, 

与 's 最 接近 的 单词 : ? , s, calabash, arguably, transformative, his, pikes, louis, 

与 in 最 接近 的 单词 : throughout, until, marie, since, axles, outside, during, 


three-tiered, 


这 样 看 来 ， 效 果 还 不 错 。 具 体 结果 ， 读 者 可 以 自行 运行 代码 去 查看 。 
4.5 Skip-Gram 和 CBOW 对 比 


在 介绍 完 Word2vec 的 两 个 模型 之 后 ， 下 面 我 们 分 析 一 下 这 两 个 模型 之 间 的 差异 。 
4.5.1 Skip-Gram 和 CBOW 模型 结构 分 析 


这 里 结合 4.4.1 中 的 例句 (如 图 4-26 所 示 ) 给 定 上 下 文 和 目标 词 ，Skip-Gram 模型 其 实 仅 在 单 
个 [输入 ,输出 ] 元 组 中 关注 目标 词 和 上 下 文中 的 单个 词 ， 而 CBOW 在 单个 样本 中 则 关注 目标 词 和 上 
下 文中 的 所 有 词 。 例 如 ， 短 语 dog barked at the mailman 中 ，Skip-Gram 在 单个 时 间 步 长 内 关注 到 像 
["dog","at"] 这 样 的 输入 输出 元 组 ， 而 CBOW 关注 到 的 则 是 [["dog","barked","the","mailman"],"at"] 这 
样 的 输入 输出 元 组 。 所 以 ， 在 给 定 的 一 批 数据 中 ，CBOW 接收 的 信息 多 于 Skip-Gram。 接 下 来 我 们 
了 解 一 下 这 种 差异 如 何 影响 两 种 算法 的 性 能 。 

所 以 ， 从 两 个 模型 的 实现 视图 来 看 ， 我 们 知道 ，CBOW 模型 在 给 定 的 时 间 里 可 以 获取 更 多 的 
信息 CAO ， 这 样 就 促使 CBOW 在 某 些 条 件 下 性 能 更 优 。 
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(b) CBOW 模型 


图 4-26 “实现 视图 


4.5.2 代码 技 面 对 比 两 模型 性 能 


在 训练 模型 的 任务 时 ， 我 们 通过 代码 绘制 了 Skip-Gram 和 CBOW 中 随 着 迭代 次 数 变化 而 产生 
的 损失 情况 ， 如 图 4-27 所 示 ， 完 整 代 码 详 见 ch4 文件 夹 中 的 4 comparison.ipynb 文件 。 

显然 ， 我 们 可 以 发 现 ， 随 着 迭代 次 数 的 堆 登 ，CBOW 模型 的 损失 比 Skip-Gram 模型 的 损失 下 
降 的 速度 快 很 多 。 但 是 ， 就 模型 的 性 能 衡量 而 言 ， 只 关注 损失 本 里 是 不 够 的 ， 因 为 如 果 模 型 过 度 拟 
合 了 训练 数据 ,损失 照样 会 迅速 减少 ， 所 以 我 们 还 要 关注 模型 的 另外 一 个 性 能 指标 ， 即 词 向 量 的 质 
量 。 为 了 更 加 直观 地 比较 Skip-Gram 和 CBOW 模型 之 间 的 性 能 情况 ， 这 里 使 用 t-SNE 技术 进行 可 
视 化 对 比 ， 其 运行 结果 如 下 ， 读 者 可 以 自行 执行 代码 进行 查验 。 
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Skip-Gram 与 CBOW 模 型 的 损失 随 着 时 间 的 推移 而 发 生 的 变化 


mop Skip-Gr am 
— — (BON 


- 
- 
-— 


PT. tereti) 
4-27 损失 下 降 : Skip-Gram vs CBOW 


我 们 讨论 过 ， 与 Skip-Gram 算法 相 比 ，CBOW 可 以 访问 给 定 [ 输 入 ,输出 ] 元 组 的 指定 目标 词 所 
在 上 下 文 的 更 多 信息 。 可 以 看 到 ， 与 Skip-Gram 模型 相 比 ，CBOW 给 出 的 损失 会 快速 减少 。 尽 管 
如 此 ， 其 实 损失 本 身 并 不 足以 衡量 模型 绩效 ， 因 为 过 度 拟 合 了 训练 数据 ， 损 失 也 会 迅速 减少 。 虽然 
有 一 些 基 准 测 试 任务 用 于 评估 词 癌 量 的 质量 〈 例 如 ， 词 类 比 任务 ) ， 但 我 们 将 使 用 更 简单 的 检查 方 
法 。 为 了 直观 地 检查 学 习 的 词 向 量 ， 以 确保 Skip-Gram 和 CBOW 在 它们 之 间 显 示 出 显著 的 语义 差 
异 ， 这 里 使 用 t-Distributed 随机 邻居 嵌入 (ESNE) 可 视 化 技术 进行 处 理 ， 详 见 图 4-28〈 详 见 代码 
运行 效果 图 ) 。 在 图 4-28 中 ， 我 们 可 以 看 到 CBOW 对 于 词 的 聚集 效果 优 于 Skip-Gram， 其 中 词 稀 
朴 地 分 布 在 整个 空间 中 。 因 此 ， 我 们 可 以 说 CBOW 看 起 来 比 Skip-Gram 更 具有 优势 ， 然 而 ， 事 实 
上 这 仅 是 一 个 特例 ， 下 面 会 继续 分 析 。 


Skip-Gram 模 型 采样 t-SNE 技 术 得 到 的 效果 图 CB0W 模 型 采样 t-SNE 技 术 得 到 的 效果 图 
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4-28 Skip-Gram 和 CBOW 获得 的 词 同 量 的 t-SNE 可 视 化 效果 图 示 
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4.5.3 Skip-Gram 和 CBOW 模型 熟 优 


其 实 , 在 性 能 表现 方面 , Skip-Gram 和 CBOW 之 间 没 有 明确 的 赢家 。 就 像 Mikolov 等 人 在 2013 
年 发 表 的 论文 《Distributed Representations of Words and Phrases and their Compositionality) ( Mikolov 
Af, 20130 中 所 表达 的 那样 ，Skip-Gram 在 语义 任务 中 表现 更 好 ， 而 CBOW 在 句法 任务 中 表现 更 
好 。 但 是 ， 在 大 多 数 任务 中 ，Skip-Gram 似乎 比 CBOW 表现 更 好 ， 这 与 我 们 刚才 的 发 现 显然 有 些 
出 入 。 

各 种 经 验证 据 表 明 ， 与 CBOW 相 比 ，Skip-Gram 适用 于 大 型 数据 集 ， 并 且 在 论文 《Distributed 
Representations of Words and Phrases and their Compositionality) (Mikolov 等 , 2013) 和 论文 《GloVe: 
Global Vectors for Word Representation) (Pennington ^5, 2014) 中 得 到 了 文 持 ， 这 里 通 第 使 用 数 
十 亿 个 词 的 语料库 。 由 于 上 面 任务 涉及 的 数据 只 有 数 十 万 个 词 ， 数 据 样 本 相对 较 小 ， 所 以 这 时 
CBOW 表现 更 好 。 

为 了 更 好 地 证 实 上 面 的 论述 ， 下 面 我 们 做 进一步 分 析 ， 考 虑 以 下 两 句 话 : 


€ Itisaniceday 
@ Itis a brilliant day 


对 于 CBOW， 输 入 输出 元 组 如 下 : 


[[It, is, a, day], nice] 


[[It, is, a, day],brilliant] 


而 Skip-Gram 的 输入 输出 元 组 如 下 所 示 : 


[It, nice], [is, nicel] [a,nice], [day, nice] 


[It, brilliant], [is, brilliant], [a, brilliant], [day, brilliant] 


我 们 希望 模型 能 够 理解 nice 和 brilliant 是 两 个 有 略微 差异 的 单词 (brilliant 意味 着 更 好 ) . 3X 
些 在 含义 上 有 细微 差别 的 词 称 为 nuances (细微 之 处 )。 我 们 可 以 看 到 ， 对 于 CBOW 来 说 ， 很 有 可 
能 它 会 关注 到 nice 和 brilliant 是 同一 个 对 象 , 因为 它们 的 语义 是 通过 周围 的 单词 (It、 is、a 和 day) 
得 到 的 平均 语义 ， 所 以 CBOW 模型 给 出 的 两 个 单词 是 一 样 的 也 就 是 很 自然 的 事情 了 。 对 于 
Skip-Gram， 单 词 nice 和 brilliant 是 与 It, is 和 day 分 开 的 ， 这 样 Skip-Gram 更 多 地 关注 起 单词 〈 例 
如 brilliant 和 mnice) 之 间 的 细微 差异 。 

这 里 要 注意 ， 现 实 中 模型 可 能 有 数 百 万 个 参数 ， 要 训练 这 些 模 型 ， 需 要 大 量 数据 。CBOW 以 
某 种 方式 只 是 平均 给 定语 境 中 所 有 单词 的 语义 (例如 ，Itis a day 的 平均 语义 ) ; Skip-Gram 会 学 习 
更 细致 的 单词 表示 ， 所 以 Skip-Gram 将 需要 更 多 数据 ， 一 旦 提供 了 足够 多 的 数据 ，Skip-Gram 模型 
就 很 可 能 会 优 于 CBOW 模型 。 
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4.6 igBRASUEBJH HE 


Mikolov 等 人 在 2013 FERREE Y JURE n] EE — 2v dera WE EON E 2] SE TEBEIT] 3 JE, 
虽然 它们 最 初 被 引入 Skip-Gram, 但 它们 也 可 以 扩展 到 CBOW 此 外 , 正如 我 们 已 经 看 到 的 , CBOW 
在 上 面 的 示例 中 存在 优 于 Skip-Gram 算法 的 地 方 ， 本 节 将 继续 使 用 CBOW KHER HEA Word 
Embedding) 算法 的 扩展 内 容 。 


4.6.1 使 用 Unigram 分 布 进行 负 采 样 


1. 相关 理论 概要 


鱼 采 样 的 思想 最 初 来 源 于 一 种 叫 作 Noise-Contrastive Estimation (NCE, H aX Eiir) 的 算 
法 ， 原 本 是 为 了 解决 那些 无 法 归 一 化 的 概率 模型 的 参数 预 估 问题 。 与 改造 模型 输出 概率 的 
Hierarchical Softmax 算法 不 同 ，NCE 算法 改造 的 是 模型 的 似 然 函 数 。 

由 上 面 的 内 容 ， 我 们 知道 ， 当 通过 从 某 些 分 布 采 样 而 不 是 从 均匀 分 布 进行 采样 时 ， 负 采样 的 性 
能 会 更 好 ，Unigram 分 布 就 是 这 样 的 分 布 。 词 wi 的 一 元 概率 由 以 下 等 式 给 出 : 

count(w;) 

itto count (w; ) 
这 里 ，count(w;) 是 词 wi 在 文档 中 出 现 的 次 数 。 
让 我 们 用 一 个 例子 来 更 好 地 理解 Unigram 分 布 。 考 虑 以 下 人 句子: 


U(w;) — 


Bob is a football fan. He is on the school football team. 
在 这 里 ， 单 词 “football” 的 Unigram 概率 如 下 : 
U ( football ) = 2 /26 = 1/13 

这 样 我 们 可 以 看 出 ， 常 用 词 的 Unigram 概率 会 更 高 ， 但 是 ， 在 现实 工作 任务 中 ， 这 些 常 用 词 
往往 是 无 效 信息 的 词 ， 例 如 a 和 is 等。 这样 来 看 ， 在 成 本 优化 期 间 ， 这 种 高 频率 的 词 将 被 更 多 地 
负 有 采样， 导致 含 有 更 多 信息 性 的 词 减少 了 被 负 采 样 的 机 会 。 因 此 ， 在 优化 期 间 ， 需 要 使 用 Unigram 
分 布 进行 负 采 样 在 常用 词 和 罕见 词 之 间 做 好 平衡 ， 从 而 获得 更 好 的 性 能 。 下 面 ， 我 们 来 实现 基于 
Unigram 的 负 采 样 。 

2. 实现 基于 Unigram 的 负 采 样 

在 这 里 ， 我 们 将 看 到 如 何 使 用 TensorFlow 实现 基于 Unigram 的 负 末 样 : 


unigrams = [0 for in range (vocabulary Size) 
for word,w count in count: 


w idx = dictionary [word] 
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unigrams[w idx] = w count*1.0/token count 


word count dictionary[w idx] - w count 


iX, count 是 一 个 元 组 列表 ， 其 中 每 个 元 组 由 word ID, frequency) 组 成 。 该 算法 计算 每 个 
词 的 Unigram 概率 ， 并 将 它们 作为 按 词 索引 排序 的 列表 返回 。 完 整 代 码 详 见 ch4 文件 夹 中 


4 comparison.ipynb 文件 。 
接 下 来 ， 我 们 计算 一 个 组 入 查找 运算 ， 就 像 我 们 通常 为 CBOW 做 的 那样 : 


train dataset = tf.placeholder(tf.int32, shape-[batch size,window size*2]) 


train labels = tf.placeholder(tf.int32, shape-[batch size, 11) 

valid dataset = tf.constant(valid examples, dtype-tf.int32) 

# 相关 变量 . 

# embedding, vector for each word in the vocabulary 

embeddings = tf.Variable(tf.random uniform([vocabulary size,embedding size], 
-—1.0, 1.0, dtype-tf.f10oat32)) 

softmax weights -tf.Variable(tf.truncated normal([vocabulary size, 
embedding size], stddev-1.0 / math.sqrt(embedding size), dtype-tf.float32)) 

softmax biases -tf.Variable(tf.zeros([vocabulary size], dtype-tf.float32)) 


stacked embedings = None 


for i in range(2*window size): 
embedding i = tf.nn.embedding lookup (embeddings,train dataset[:,i]) 
X Size,y size = embedding i.get shape().as list() 
if stacked embedings is None: 
stacked embedings -tf.reshape(embedding i,[x size,y size,l]) 


else: 


stacked embedings -tf.concat(axis-2,values-[stacked embedings,tf. 


reshape (embedding i,[x size,y size,l1])]1) 


mean embeddings = tf.reduce mean(stacked embedings,2,keepdims-False) 


接 下 来 ， 我 们 将 基于 Unigram 分 布 对 负 样 例 进行 采样 。 为 此 ， 我 们 将 调用 TensorFlow B5 Pj B 
函数 t£nn.fixed unigram candidate sampler: 


candidate sampler = tf.nn.fixed unigram candidate sampler (true classes = 


tf.cast(train labels,dtype-tf.int64),num true — 1, num sampled - 
num sampled,unique = True,range max = vocabulary size, 
distortion-0.75,num reserved ids-0, nigrams-unigrams, 


name-'unigram sampler') 
tf.reduce mean(tf.nn.sampled softmax loss(weights-softmax weights, 


biases-softmax biases, inputs-mean embeddings, 


loss = 


labels-train labels, num sampled-num sampled, 


num classes-vocabulary size, 


sampled values-candidate sampler)) 
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通常 ， 我 们 的 实现 过 程 会 执行 以 下 步 又 : 
(1) 定义 变量 、 占 位 符 和 超 参 数 。 
(2) 对 于 每 批 数据 ， 会 有 以 下 情况 : 
通过 查找 上 下 文 窗口 每 个 索引 的 词 向 量 并 对 它们 求 平均 来 计算 平均 输入 词 向 量 矩 阵 。 
通过 负 采 样 计算 损失 ， 根 据 Unigram 分 布 进行 采样 。 
使 用 随机 梯度 下 降 优化 神经 网 络 。 


4.6.2 KRH 


1. 相关 理论 概要 

降 采 样 ， 也 就 是 我 们 常 说 的 子 采 样 ， 也 有 下 采样 之 说 ,其 基本 思想 就 是 在 模型 训练 时 根据 概率 
情况 随机 丢掉 高 频 词 (通常 是 一 些 无 效 词 ,例如 停顿 词 等 )。 在 数学 上 ， 这 是 通过 忽略 语料库 中 词 
序列 中 的 词 w; 来 实现 的 。 

(wi) -1- |— 
iscara Wi) 一 上 一 I~ 
f wi) 

其 中 ,1 是 一 个 先 验 参 数 ， 一 般 取 为 10C3， 它 用 于 控制 被 忽略 词 的 词 频 率 闽 值 。F(wi) 是 wi 在 
语 料 中 出 现 的 频率 。 这 有 效 地 降低 了 停 用 词 〈 例 如 ，“the”“a”“of”“。” 和 “，”) 的 频率 ， 
从 而 在 数据 集中 创建 更 多 平衡 。 

相关 实验 研究 表明 ， 这 种 降 采 样 技术 可 以 显著 提高 低频 词 词 问 量 的 准确 度 。 

2. 降 采 样 实施 


降 采 样 的 实现 思路 是 从 原始 序列 中 创建 一 个 新 的 词 序 列 ， 通 过 从 刚刚 看 到 的 概率 中 删除 序列 中 的 
词 ， 并 使 用 这 个 新 的 词 序列 来 学 习 词 问 量 。 完 整 代 码 见 ch4 文件 夹 中 的 4 comparison.ipynb 文件 。 


4.6.3 CBOW 和 其 扩展 类 型 比较 


对 于 CBOW、 基 于 unigram 负 采 样 的 CBOW (Unigram) 、 基 于 Unigram 负 采 样 和 降 采 样 的 
CBOW 的 对 比 ， 通 过 代码 执行 得 到 图 4-29 所 示 的 结果 ， 我 们 从 中 可 以 看 到 随 着 迭代 次 数 的 增加 ， 
各 个 类 型 的 损失 函数 的 变化 情况 。 完 整 代 码 见 ch4 文件 夹 中 的 4 comparison.ipynb 文件 。 

通过 图 示 ， 我 们 发 现 一 个 现象 : 基于 Unigram 负 末 样 和 降 采 样 的 CBOW 与 基于 仅 有 Unigram 
负 采 样 的 CBOW 相 比 ， 随 着 迭代 次 数 的 增加 ， 损 失 函 数 的 变化 曲线 基本 一 致 。 然 而 ， 实 际 上 ， 这 
不 应 该 被 误解 为 降 采 样 在 学 习 问 题 的 能 力 上 缺乏 优势 。 之 所 以 有 这 种 特殊 情况 出 现 , 是 因为 与 降 采 
样 一 样 ， 我 们 去 掉 了 许多 无 用 词 〈 无 信息 词 ) 引起 文本 质量 随 之 提升 (就 信息 质量 而 言 》。 然 而 ， 
这 也 反 过 来 导致 学 习 问 题 的 能 力 提升 变 得 更 加 困难 , 因为 在 最 初 的 问题 设置 中 , 词 问 量 有 机 会 在 优 
化 过 程 中 利用 大 量 无 信息 词 ， 而 在 新 的 问题 设置 中 ， 这 种 机 会 变 得 很 少 。 
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原始 CBOW 与 各 类 改进 CBOW 模 型 的 损失 随 着 时 间 的 推移 而 发 生 的 变化 


—- CBOW (Unigram) 
—— — CBOW (Unigram*Subsamp! i ng) 


40000 60000 
和 迭代 次 数 (lterations) 


4-29 原始 CBOW 及 其 两 个 扩展 类 型 的 损失 变化 
4.7 结构 化 Skip-Gram 和 连续 窗口 模型 


Word2vec 技术 在 获取 词语 义 方面 非常 强大 ， 但 是 它们 并 非 没 有 限制 。 例 如 ， 它 们 不 关注 上 下 
文 词 和 目标 词 之 间 的 距离 ,但 是 如 果 上 下 文 词 远离 目标 词 ,那么 其 对 目标 单词 的 影响 会 更 小 ,因此 ， 
我 们 需要 讨论 在 上 下 文中 单独 关注 不 同 词 所 在 位 置 的 技术 。Word2vec 的 男 一 个 限制 是 它 在 计算 词 
问 量 时 只 关注 给 定 词 周 围 一 个 非常 小 的 窗口 ,， 然而 ,实际 上 ， 应 该 考虑 在 整个 语料库 中 共同 出 现 的 
词 的 方式 来 计算 合适 的 词 同 量 。 因 此 , 我 们 将 研究 一 种 搁 术 ， 它 不 仅 可 以 查看 词 的 上 下 文 ， 还 可 以 
查看 词 的 全 局 共 现 信息 。 


4.7.1 结构 化 Skip-Gram 算法 


先前 讨论 的 Skip-Gram 算法 及 其 所 有 变 体 忽 略 了 给 定 上 下 文中 词 的 本 地 化 。 换 句 话 说 ， 标 准 
Skip-Gram 算法 无 法 利用 上 下 文 词 的 准确 位 置 ， 而 只 能 同等 地 处 理 给 定 上 下 文中 的 所 有 词 。 例 如 ， 
让 我 们 考虑 一 个 句子 : 


The dog barked at the mailman. 


我 们 考虑 目标 词 barked， 那 么 barked 这 个 词 的 上 下 文 就 是 “the*dog”at” 和 “the”mailman”。 我 
们 将 组 成 5 个 数据 点 (“barked”, “the”) 、 (“barked”, “dog”) ~ (“barked”, “at”) ~ (*barked", 
“the”) 4I (*barked", *mailman") ， 其 中 元 组 的 第 一 个 元 素 是 输入 词 ， 第 二 个 元 素 是 输出 词 。 如 
果 我 们 考虑 来 自 这 个 集合 的 两 个 数据 点 (“barked”，“the”) M C*barked", *dog") ， 标 准 Skip-Gram 
算法 将 在 优化 过 程 中 平等 对 待 这 两 个 元 组 。 换 句 话 说 ，Skip-Gram 忽略 了 上 下 文中 词 的 实际 位 置 ， 
而 从 语言 学 的 角度 来 看 ， 元 组 (“barked”,“dog”) 显然 比 (“barked”，“the”) 包含 更 多 的 信息 。 接 
下 来 ， 结 构 化 的 Skip-Gram 算法 将 试图 解决 这 个 限制 。 让 我 们 具体 看 一 下 。 

如 图 4-30 所 示 ， 结 构 化 的 Skip-Gram 算法 使 用 下 面 的 架构 来 解决 上 面 标准 Skip-Gram $1238 
到 的 限制 问题 。 
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4-30 结构 化 的 Skip-Gram 


如 图 4-30 所 示 ， 结 构 化 Skip-Gram 在 优化 期 间 保留 了 上 下 文 词 的 结构 或 本 地 化 的 形式 ， 但 是 
它 需 要 更 多 的 内 存 空 间 ， 因 为 参数 的 数量 与 窗口 大 小 呈 线 性 关系 。 具 体 来 讲 ,假设 Skip-Gram 模型 
的 窗口 大 小 为 m( 目 标 词 一 侧 的 词 数 量 ) ， 如 果 标 准 Skip-Gram 模型 在 softmax 层 有 P 个 参数 ， 那 
么 结构 化 Skip-Gram 模型 将 有 2mP 个 参数 ， 因 为 我 们 在 上 下 文 窗口 中 为 每 个 位 置 都 设置 了 一 组 P 


参数 。 
关于 损失 函数 ， 标 准 Skip-Gram 模型 的 负 采 样 softmax 损失 函数 如 下 所 示 : 


N—-m i^m 


KO --(n Mm) 2. 2 tog (o (togia) 


i=m+1 jzij-i—-m 
k 
t 2 E (wq-vocabulary-wi,w;) log (s (-log itp Gen) wo))) 
q=1 


而 结构 化 Skip-Gram 使 用 以 下 损失 函数 : 


2 N—-m i+m 


J(0) = > - (ar) » 2. log (s (logiti Go) qu)) 
1 


p- i=m+1 jzij-i—m 
k 
* 2. E (wq-vocabulary-wiw;) log (s (-log ity Cen) (wa) )) 
q=1 


这 里 ， 使 用 第 p 组 softmax 权重 值 和 对 应 于 w; 位 置 索 引 的 softmax 偏差 来 计算 logity (xn)(w)。 
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完整 实现 代码 ， 可 参考 ch4 文件 夹 中 的 4 word2vec_extended.ipynb 文件 。 
首先 ， 我 们 将 定义 输入 和 输出 占 位 符 : 


train dataset = tf.placeholder(tf.int32, shape-[batch size]) 
train labels = [tf.placeholder(tf.int32, shape-[batch size, 1]) for in 


range (2*window size)] 


然后 我 们 将 从 训练 输入 和 标签 处 开始 定义 计算 损失 : 
# 相关 变量 


embeddings = tf.Variable( 
tf.random uniform([vocabulary size, embedding size],-1.0, 1.0)) 
softmax weights = [tf.Variable(tf.truncated normal([vocabulary size, 
embedding size],stddev-0.5 / math.sqrt(embedding size))) for Jin 
range (2*window size)] 
softmax biases -[tf.Variable(tf.random uniform([vocabulary size],0.0,0.01)) 
for _ in range(2*window size)] 


# 相关 模型 


embed = tf.nn.embedding lookup(embeddings, train dataset) 
# Compute the softmax loss, using a sample of the negative labels each time. 
loss = tf.reduce sum( 


[ 


tf.reduce mean(tf.nn.sampled softmax loss(weights-softmax weights[wi], 
biases-softmax biases[wi], inputs-embed, labels-train labels[wi], 
num sampled-num sampled, num classes-vocabulary size)) 
for wi in range(window size*2) 
] 
) 


结构 化 Skip-Gram 解决 了 标准 Skip-Gram 算法 的 一 个 重要 限制 , 即 在 学 习 过 程 中 注意 上 下 文 词 
的 位 置 。 这 是 通过 引入 一 组 单独 的 softmax 权重 值 和 对 上 下 文 每 个 词 位 置 的 偏差 来 实现 的 ， 这 将 有 
助 于 优化 模型 性 能 ， 但 也 因为 参数 的 增加 而 需求 更 多 的 内 存 空间 。 接 下 来 ， 我 们 将 看 到 与 CBOW 
模型 类 似 的 扩展 。 


4.7.2 连续 窗口 模型 


连续 窗口 模型 (Continuous Window Model) 是 类 似 于 结构 化 Skip-Gram 模型 而 扩展 出 的 CBOW 
模型 。 在 原始 CBOW 算法 中 ， 在 传 给 softmax 层 之 前 ， 将 所 有 上 下 文 词 找到 的 词 品 量 进行 平均 化 
处 理 ， 而 在 连续 窗口 模型 中 ,不 是 对 词 癌 量 进行 平均 ， 而 是 将 它们 连接 起 来 ， 从 而 产生 mXD 长 的 
词 问 量 ， 其 中 Dem 是 CBOW 算法 的 原始 词 同 量 大 小 Embedding Size) 。 图 4-31 给 出 了 连续 窗口 
模型 结构 。 


28438 WERA | 111 


通过 优化 softmax 权 重 和 庶 入 层 来 最 大 限度 地 诚 少 损失 


4-31 连续 窗口 模型 结构 示意 图 


在 本 节 中 ， 我 们 讨论 了 两 种 扩展 的 Skip-Gram 和 CBOW 算法 ， 这 两 种 变 体 基本 上 利用 了 上 下 
文中 词 的 位 置 ， 而 不 是 同等 地 看 待 给 定 上 下 文中 的 所 有 词 。 接 下 来 ， 我 们 将 讨论 男 一 种 著名 模型 
一 一 GloVe( Global Vectors Representation, 全 局 同 量 表示 ) 模 型 ,我 们 将 看 到 GloVe 克服 了 Skip-Gram 
和 CBOW 固有 的 某 些 限制 。 


4.8 ”GloVe 模型 


关于 学 习 词 同 量 表示 , 这 里 主要 有 两 类 模型 系列 : (W 全 局 矩阵 分 解 方 法 , 如 潜在 语义 分 析 (LSA) 
(Deerwester 等 ,1990); G@) 局 部 上 下 文 窗口 方法 ,如 Skip-Gram 和 CBOW 模型 (Mikolov 等 , 2013). 
但 是 ， 目 前 这 两 类 模型 都 有 明显 的 缺点 ， 例 如 ， 尽 管 LSA 这 样 的 方法 能 有 效 地 利用 统计 信息 ， 但 
它们 在 词类 比 任 务 上 的 表现 相对 较 差 ， 这 表明 了 它们 次 优 的 回 量 空间 结构 。Skip-Gram 这 样 的 方法 
可 能 在 词类 比 上 表现 更 好 , 但 它们 在 利用 语料库 的 统计 信息 上 表现 并 不 好 , 因为 它们 是 在 分 离 的 局 
部 上 下 文 窗口 中 训练 的 ， 而 不 是 在 全 局 的 共 现 (Co-Occurrence) 计数 上 训练 的 。GloVe 模型 试图 充 
分 整合 利用 这 两 个 领域 一 一 一 种 有 效 利用 全 局 语料库 统计 数据 的 方法 , 同时 以 基于 上 下 文 窗口 的 方 
式 优化 学 习 模型 ， 类 似 于 Skip-Gram 或 CBOW. 

对 于 GloVe 模型 而 言 ， 其 主要 目标 是 将 词 进行 回 量化 表示 ， 以 便 使 各 个 回 量 之 间 能 够 尽 可 能 

多 地 涵盖 语 境内 的 语义 和 语法 信息 。 通过 输入 语料库 而 输出 词 同 量 。 实 现 方 法 为 : 首先 基于 整个 语 

料 库 构建 词 的 共 现 和 矩阵， 然后 基于 共 现 矩阵 和 GloVe 模型 处 理学 习 词 问 量 。 

滑铁卢 大 学 Vineet John 于 2017 年 4 月 撰写 的 一 骗 论 文 《4 Survey of Neural Network Techniques 

for Feature Extraction from Text》 中 提出 ， 任 意 词 之 间 的 关系 都 可 以 通过 研究 它们 的 共 现 概率 与 多 
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个 探测 词 (Probe Word) 之 间 的 比例 来 检验 ， 且 词 问 量 学 习 的 合理 起 点 应 该 是 共 现 概率 的 比例 ， 而 
非 概率 本 身 。 那 么 我 们 可 以 将 这 种 共 现 关系 表示 成 以 下 形式 : 
Piik) 


F((w; — wj) wy) = p 


4.8.4 闪现 和 矩阵 


设 共 现 矩阵 为 艺 ， 其 元 素 为 Xi p 
这 里 ，X4 是 指 在 整个 语料库 中 词 i 和 词 j 共同 出 现在 一 个 窗口 中 的 次 数 。 

下 面 以 一 句 话 为 例 进行 解读 : 

The dog barked at the mailman. 

上 面 这 个 句子 就 是 一 个 语料库 ， 该 语料库 包含 5 个 单词 : the、dog、barked、at、mailman。 


定义 单 侧 窗 口 大 小 window size 为 2， 则 整个 窗口 宽度 (大 小 ) 为 2*window_size 十 1 =5， 那 
么 我 们 就 可 以 给 出 窗口 宽度 为 5 的 统计 窗口 ， 具 体 如 表 4-1 所 示 。 


表 4-1 窗口 宽度 为 5 的 统计 窗口 


窗口 内 容 


the dog barked at 
the dog barked at the 
dog barked at the mailman 
barked at the mailman 
at the mailman 

考虑 到 中 心 词 两 侧 保证 至 少 2 个 单词 的 情况 ， 现 在 以 中 心 词 为 at 的 窗口 内 容 为 例 ， 语 境 词 为 
dog barked at the mailman， 则 将 整个 窗口 遍历 一 次 即 可 得 到 共 现 矩阵 蒜 ， 如 下 : 


X go g) ES 


X (at.barked) tl 


X +=1 


(at,the) 
X 1-1 


(at,mailman) B 


4.8.2 ”使 用 GloVe 模型 训练 词 向 量 


我 们 假设 二 "dog" 和 j="cat"， 且 给 出 一 个 探测 词 k， 那 么 可 以 定义 名 为 词 1 和 词 k 在 一 起 出 现 
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的 概率 , Pi 为 词 ] 和 词 k 一 起 出 现 的 概率 。 这 时 , 对 于 k="bark", 它 很 可 能 与 一 起 出 现 , 因此 Pix 会 
很 高 ， 然 而 ，k 不 会 经 常 与 j 一 起 出 现 则 导致 低 Px。 因 此 ， 下 式 成 立 : 
Pk/Pkr>> 1 


如 果 上 ="whiz"， 那 它 不 太 可 能 出 现在 ii 的 附近 , 因此 将 具有 低 的 Px; 但 由 于 k 与 j 高 度 相关 ， 
因此 Pix 的 值 将 很 高 。 所 以 ， 这 会 导致 以 下 结果 : 
Py /Pjy* 0 


wW k —"pet",. WES i814 都 有 很 强 的 关系 ， 或 者 k ="lawyer"， 其 中 1 和 j 两 者 都 有 最 小 的 相 
关 性 ， 我 们 可 以 得 到 : 
Piy / Pf 1 


由 此 我 们 得 知 ， 通 过 统计 彼此 相近 两 个 词 的 频数 可 以 计算 其 对 应 共 现 概率 Px、Px， 进 而 可 以 

得 到 二 者 比率 与 1 的 关系 ， 最 终 可 以 得 到 词 之 间 的 关系 情况 。 所 以 ，Pix / 及 就 成 为 学 习 词 回 量 的 
重要 方法 ， 下 面 给 出 最 通用 的 表示 形式 : 

P 

df und 2 ) 

F((wi wi) Wg) Pas 


经 过 一 系列 的 推导 ， 我 们 最 终 会 得 到 以 下 损失 函数 : 


V 
J= 2. f Qj) (wiW + b; + b, — logXij)? 
£j 
关于 这 里 的 推导 过 程 ， 感 兴趣 的 读者 可 以 查看 Jeffrey 等 人 的 论文 《GloVe: Global Vectors for 
Word Representation》， 里 和 面 给 出 了 详细 的 推导 过 程 。 下 面 我 们 看 看 GloVe 模型 的 实现 。 


4.8.3 GloVe 模型 实现 


这 部 分 的 完整 代码 见 ch4 文件 夹 中 的 4_glove.ipynb 文件 。 
首先 ， 我们 将 定义 输入 和 输出 : 


train dataset = tf.placeholder (tf.int32, 
shape-[batch size],name-'train dataset') 
train labels = tf.placeholder (tf.int32, 


shape-[batch size],name-'train labels') 

接 下 来 ,我们 将 定义 两 个 不 同 的 词 租 入 层 : 一 个 用 于 查找 输入 词 ， 男 一 个 用 于 查找 输出 词 。 男 
外 ， 我 们 将 定义 词 回 量 偏 差 ， 束 像 我 们 对 softmax 层 的 偏差 一 样 : 

in embeddings = tf.Variable(tf.random uniform([vocabulary size, 


embedding size], -1.0, 1.0), name-'embeddings') 


in bias embeddings - tf.Variable(tf.random uniform([vocabulary size], 
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0.0,0.01, dtype-tf.float32), name-'embeddings bias') 

out embeddings - tf.Variable(tf.random uniform([vocabulary size, 
embedding size], -1.0, 1.0), name-'embeddings') 

out bias embeddings - tf.Variable(tf.random uniform([vocabulary size], 


0.0,0.01, dtype-tf.float32), name-'embeddings bias') 


现在 ， 我 们 将 得 找 给 定 输入 词 和 输出 词 〈 标 答 ) SENI S I] T: 


embed in = tf.nn.embedding lookup (in embeddings, train dataset) 
embed out — tf.nn.embedding lookup(out embeddings, train labels) 
embed bias in = tf.nn.embedding lookup (in bias embeddings, train dataset) 
embed bias out = tf.nn.embedding lookup(out bias embeddings, train labels) 


此 外 ， 我 们 将 在 损失 函数 中 定义 f (Xi;) (weights x) MX; (x i. 的 占 位 符 : 


weights x = tf.placeholder(tf.float32, shape-[batch size],name-'weights x') 
X ij = tf.placeholder(tf.float32, shape-[batch size], name-'x ij') 


最 后 ， 我 们 将 定义 完全 损失 函数 ， 如 下 所 示 : 


loss = tf.reduce mean(weights x * (tf.reduce sum(embed in*embed out,axis-1) + 


embed bias in F embed bias out - tf.log(epsilon*x ij))**2) 


在 本 节 中 , 我 们 研究 了 词 舱 入 的 男 一 个 重要 技术 : GloVe 模型 。 GloVe 相对 于 之 前 的 Word2vec 
技术 ， 主 要 优点 是 它 注重 语料库 的 全 局 和 局 部 统计 学 习 ， 以 便 更 深入 地 学 习 词 辣 量 。 由 于 GloVe 
能 够 捕获 有 关 词 的 全 局 信息 ， 因 此 它们 往往 会 提供 更 好 的 性 能 表现 ， 尤 其 是 当 语料库 大 小 增加 时 。 
另外 ， 与 Word2vec 技术 不 同 ，GloVe 不 是 近似 损失 函数 〈 例 如 ， 使 用 负 采 样 的 Word2vec) ， 而 是 
计算 真实 损失 函数 ， 这 样 对 于 模型 损失 函数 的 优化 会 更 加 有 利 。 


4.9 使 用 Word2Vec 进行 文档 分 类 


尽管 Word2vec 提供 了 一 种 非常 优雅 的 方法 来 学 习 词 的 数字 表示 , 正如 我 们 在 定量 上 看 到 的 ( 损 
失 值 ) 和 定性 上 看 到 的 〈(t-SNE WERA) ,仅仅 进行 学 习 词 表示 并 不 足以 说 明 在 现实 世界 中 词 癌 量 
的 应 用 能 力 。 其 实 ， 词 嵌入 (Word Embedding) 已 被 用 于 许多 工作 任务 的 词 特征 表示 中 ， 例 如 图 
像 标 题 生 成 和 机 器 翻译 。 然 而 ， 这 些 任务 涉及 不 同学 习 模 型 的 组 合 ( 例 如 卷 积 神经 网 络 (CNN) 
和 长 短期 记忆 (STM) 模型 或 两 个 LSTM 模型 )。 这 些 将 在 后 面 的 章节 中 讨论 。 为 了 理解 词 嵌 入 
的 实际 使 用 方法 ， 这 里 将 使 用 一 个 较为 简单 的 工作 任务 一 一 文档 分 类 。 

文档 分 类 是 NLP 中 最 受 欢 迎 的 任务 之 一 。 文 档 分 类 对 于 处 理 大 量 数 据 集合 的 人 员 非 常 有 用 ， 
例如 新 闻 网 站 、 出 版 商 和 大 学 。 因 此 ， 有 意思 的 是 学 习 词 回 量 如何 通 过 内 入 整个 文档 而 不 是 词 来 
适应 真实 世界 的 任务 ， 比 如 说 文档 分 类 便 是 如 此 。 

本 节 的 代码 见 ch4 文件 夹 中 的 4 document embedding.ipynb 文件 。 
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对 于 此 任务 ， 我 们 将 使 用 已 组 织 好 的 一 组 文本 文件 ， 这 些 都 是 BBC 的 新 闻 文 章 ， 本 系列 中 的 
每 个 文档 都 属于 以 下 类 别 之 一 : 商业、 娱乐、 政治、 体育 或 技术 。 我 们 使 用 每 个 类 别 中 的 250 个 
文档 , 词汇 量 大 小 为 25000 个 。 此外, 每 个 文档 将 由 < 文档 类 型 > - <id> 标 记 表 示 , 以 便 进行 可 视 化 。 
例如 ， 娱 乐 部 分 的 第 50 个 文档 将 表示 为 entertainment-50。 应 该 注意 的 是 ， 与 在 实际 应 用 中 分 析 的 
大 型 文本 语料库 相 比 ， 这 是 一 个 非常 小 的 数据 集 。 然 而 ， 目 前 这 个 小 例子 足以 看 到 词 向 量 的 性 能 表 
现 情况 。 

以 下 是 来 自 实 际 数据 的 几 个 简短 片段 : 


Business 

Japan narrowly escapes recession 

Japan's economy teetered on the brink of a technical recession in the three months 
to September, figures show. 

Revised figures indicated growth of just 0.1% - and a similar-sized contraction 
in the previous quarter. On an annual basis, the data suggests annual growth of 
Just 0.2*,... 

Technology 

UK net users leading TV downloads 

British TV viewers lead the trend of illegally downloading US shows from the 
net, according to research. 

New episodes of 24, Desperate Housewives and Six Feet Under, appear on the web 
hours after they are shown in the US, said a report. Web tracking company Envisional 
said 18$ of downloaders were from within the UK and that downloads of TV programmers 


had increased by 150% in the last year.» 


4.9.2 fs Fs] seo ct HTN 


这 里 ， 我 们 看 看 诸如 Skip-Gram 或 CBOW 之 类 的 词 租 入 方法 是 否 可 以 扩展 到 文档 分 类 或 文档 
聚 类 应 用 中 。 由 于 CBOW 算法 已 被 证 明 在 使 用 更 小 的 数据 集 上 比 Skip-Gram 表现 更 好 ， 因 此 ， 这 
里 我 们 将 使 用 CBOW 算法 。 


D 从 所 有 文本 文件 中 提取 数据 并 学 习 词 癌 量 。 

(20 从 已 经 训练 过 的 文档 中 提取 一 组 随机 文档 。 

(3) 扩展 学 习 词 同 量 以 舱 入 这 些 选 定 的 文档 。 更 具体 地 说 ,我 们 将 通过 找到 属于 文档 中 的 所 
有 词 问 量 的 平均 值 来 表示 文档 。 

(4) 使 用 t-SNE 可 视 化 技术 找到 文档 癌 量 ， 以 查看 词 回 量 是 否 可 用 于 文档 聚 关 或 分 类 。 

(50 最 后 ， 可 以 使 用 诸如 K-means 之 类 的 聚 类 算法 来 为 每 个 文档 分 配 标 签 。 


1. 学 习 词 向 量 
首先 ， 我 们 将 为 训练 数据 、 训 练 标签 、 验 证 数据 〈 用 于 监控 词 回 量 ) 和 测试 数据 (用 于 计算 


116 | TensorFlow 与 自然 语言 处 理应 用 


测试 文档 的 平均 癌 量 ) 定义 多 个 占 位 符 : 


# Input data. 


train dataset = tf.placeholder(tf.int32,shape-[batch size, 2*window size]) 
train labels = tf.placeholder(tf.int32, shape-[batch size, 1]) 

valid dataset = tf.constant(valid examples, dtype-tf.int32) 

test labels = tf.placeholder(tf.int32,shape-[batch size], 


name-'test dataset!) 


接 下 来 ， 我 们 将 为 词汇 表 、softmax 权重 值 和 偏差 定义 词 问 量变 量 〈 用 于 计算 测试 文档 的 平均 
问 量 ): 


embeddings = tf.Variable(tf.random uniform([vocabulary size,embedding size], 
-1.0, 1.0, dtype-tf.f10oat32)) 
softmax weights = tf.Variable( 
tf.truncated normal([vocabulary size, embedding size], 


stddev-1.0 / math.sqrt(embedding size), dtype-tf.float32)) 


softmax biases = tf.Variable(tf.zeros([vocabulary size], dtype-tf.float32)) 
然后 定义 采样 的 负 softmax 损失 函数 : 


loss = tf.reduce mean(tf.nn.sampled softmax loss(weights-softmax weights, 
biases-softmax biases, inputs-mean embeddings, 


labels-train labels, num sampled-num sampled,num classes-vocabulary size)) 


2. iE ERANSILSCESERAN 
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这 里 我 们 将 分 批 处 理 相 关 数 据 。 为 此 ， 我 们 需要 完成 以 下 内 容 来 达到 此 目的 。 

对 于 每 个 文档 ， 执 行 以 下 操作 : 

(1) 创建 数据 集 ， 其 中 每 个 数据 点 都 是 属于 文档 的 词 。 


(20 对 于 从 数据 集中 灯 样 到 的 小 批量 ， 通 过 对 小 批量 中 所 有 词 品 量 求 平 均 来 返回 平均 同 量 。 
G) 批量 忆 历 测试 文档 并 通过 平均 小 批量 向 量 来 获取 文档 同 量 。 


我 们 将 得 到 的 平均 批量 向 量 如 下 : 


mean batch embedding = tf.reduce mean(tf.nn.embedding lookup (embeddings, 
test labels), axis-0) 


mean embeddings = tf.reduce mean(stacked embeddings, 2,keepdims-False) 


接着 ,我 们 将 在 文档 中 所 有 批 次 的 列表 中 收集 这 些 平均 向 量 , 并 将 这 些 平均 问 量 作为 文档 向 量 。 
这 是 获取 文档 癌 量 的 一 种 非常 简单 却 强大 的 方法 ， 下 面 就 会 看 到 。 
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3. 文档 同 量 的 文档 聚 类 和 t-SNE 可 视 化 


在 图 4-32 中 , 我 们 对 CBOW 算法 学 习 的 文档 回 量 进行 了 可 视 化 ,可 以 看 到 该 算法 在 学 习 具 有 
同样 主题 的 文档 方面 上 表现 还 不 错 。 正 如 我 们 之 前 讨论 的 那样 , 在 以 无 人 监督 的 方式 对 文档 进行 分 
类 / 聚 类 方面 ， 这 种 简单 的 方法 已 被 证 明 是 一 种 非常 有 效 的 方法 。 


4. 检查 异常 值 


从 图 4-32 可 以 看 出 ， 产 生 异 常 值 的 文档 貌似 不 多 ，sport-130 和 sport-50 就 属于 少见 的 情况 ， 
下 面 我 们 对 于 这 些 文档 的 内 容 进 行 查看 分 析 ， 以 便 查 找 产 生 这 种 现象 的 原因 。 


利用 t-SNE 技 术 对 文档 嵌入 进行 可 视 化 处 理 
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4-32 ”文档 同 量 的 文档 聚 类 及 其 t-SNE 可 视 化 
以 下 是 sport-130 文档 的 片段 : 


sport-130 


Weir poised for Sunderland move 

Larne's teenage star Robbie Weir is poised to join Sunderland after turning down 
a move to Stoke City. 

The 17-year-old Irish League midfielder was also being chased by Rangers and 
Fulham, but Mick McCarthy's side appear to have won the race. But Larne boss Jimmy 


McGeough has yet to confirm that Weir is on his way from Inver Park. "I heard on 
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Sunday that he has joined Sunderland, but not from the lad himself," he said. ''Robbie 


has an agreement with Larne that he can negotiate with interested clubs. 


本 文档 主要 讨论 爱尔兰 联盟 中 场 球 员 罗 比 威 尔 加 盟 桑 德 兰 事件 的 影响 ， 而 不 是 像 其 他 Sport X 
档 里 面 在 讨论 具体 的 体育 比赛 的 。 
以 下 是 sport-50 文档 的 片段 : 


IAAF awaits Greek pair's response 

Kostas Kenteris and Katerina Thanou are yet to respond to doping charges from 
the International Association of Athletics Federations (IAAF). 

The Greek pair were charged after missing a series of routine drugs tests in 
Tel Aviv, Chicago and Athens. They have until midnight on 16 December and an IAAF 
spokesman said: "We're sure their responses are on their way." If they do not respond 
or their explanations are rejected, they will be provisionally banned from 


competition. They will then face a hearing in front of the Greek Federation,:*: 


我 们 可 以 前 明 为 什么 sport-50 远离 其 他 与 体育 相关 的 文章 聚集 在 一 起 。 让 我 们 仔细 看 看 另 一 个 
接近 sport-50 的 文档 ， 即 Entertainment-115: 


Entertainment-115 

Rapper Snoop Dogg sued for 'rape' 

US rapper Snoop Dogg has been sued for $25m (£13m) by a make-up artist who 
claimed he and his entourage drugged and raped her two years ago. 

The woman said she was assaulted after a recording of the Jimmy Kimmel Live TV 
show on the ABC network in 2003. The rapper's spokesman said the allegations 
were "untrue" and the woman was "misusing the legal system as a means of 
extracting financial gain". ABC said the claims had "no merit". The star has 


not been charged by police. 


因此 , 该 地 区 的 文件 似乎 与 各 种 犯罪 或 非法 指控 有 关 ， 而 不 是 与 体育 或 娱乐 有 关 。 这 使 得 文档 
远离 其 他 典型 的 体育 或 娱乐 相关 文档 进行 聚 类 。 


5. 使 用 K-means 对 文件 进行 聚 类 /分 类 


到 目前 为 止 ， 我 们 已 经 能 够 直观 地 检查 文档 情况 ， 但 是 这 还 不 够 ， 因 为 如 果 有 1000 多 个 文档 
需要 聚 类 /分 类 ， 就 必须 在 视觉 上 检查 1000 次 ， 所 以 我 们 需要 更 自动 化 的 方法 来 实现 这 一 目标 。 

我 们 可 以 使 用 K-means 来 聚 类 这 些 文档 。 — K-means 是 一 种 简单 但 功能 强大 的 技术 ， 用 于 根据 
数据 的 相似 性 将 数据 分 成 组 (集群 ，， 因 此 类 似 的 数据 将 位 于 同一 组 中 ,不 同 的 数据 将 位 于 不 同 的 
组 中 。 开 -means 的 工作 方式 如 下 : 

(OD 定义 天 ， 即 要 形成 的 秘 的 数量 。 我 们 将 其 设置 为 S$， 表 示 有 5 个 类 别 。 

(2) 形成 天 个 随机 质心 ， 它 们 是 簇 的 中 心 。 

G) 将 每 个 数据 点 分 配给 最 近 的 聚 类 质心 。 
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(4) 将 所 有 数据 点 分 配给 茶 个 集群 后 ， 我 们 将 重新 计算 集群 质心 〈 数 据点 的 平均 值 ) 。 
(50 以 这 种 方式 继续 ， 直 到 质心 运动 变 得 小 于 茶 个 国 值 。 


这 里 使 用 scikit-learn 库 来 获得 K-means 算法 。 在 代码 中 ， 如 下 所 示 : 


kmeans = KMeans(n clusters-5, random state-43643, max iter-10000,n init-100, 


algorithm-'elkan') 


最 重要 的 超 参 数 是 n_clusters， 它 是 我 们 想 要 形成 的 聚 类 数 。 可 以 使 用 其 他 超 参数 来 查看 它们 
对 性 能 的 影响 。 有 关 超 参数 的 解释 ， 请 访问 : http:/scikit-learn.org/stable/modules/generated/sklearn. 
cluster.KMeans.html . 


接着 ， 将 用 于 训练 的 文档 分 类 到 上 有 具体 类 中 。 我 们 将 获得 表 4-2 中 的 内 容 。 
它 看 起 来 似乎 并 不 完美 ， 但 是 可 以 很 好 地 将 属于 不 同类 别 的 文档 分 类 到 不 同 的 标签 。 


表 4-2 获得 的 内 容 


['business-179', 'entertaimment-167', 'politics-5', 'sport-200', 'sport-93', 'sport-105', 
port-31', 'sport-173', 'sport-130', 'sport-34', 'sport- 182", 'sport-100' 

l'entertaimment-79', 'entertainment-88', 'entertainment-105', "'entertainment-59', 

'entertainment-139', 'entertainment-227', 'entertaimment- 1 26' 

['politics-10', 'politics-78', 'tech-177', 'tech-117', 'tech-101', 'tech-125', 'tech-44', 

'tech-103', 'tech-216', 'tech-195', 'tech-241', tech-151' 

[business-71', "'business-111',  'business-104',  'business-31'  'business-150', 


'business-149', 'business-197', 'business-120', 'business-79', 'entertainment-205', 


'entertainment-115',  'politics-143',  'politics-121',  'politics-Al',  'politics-85', 


'politics-46', 'politics- 108', 'politics-156' 


['sport-77'] 


4.9.3 小结 


在 本 节 中 ， 我 们 学 习 了 如 何 将 词 仍 入 扩展 到 分 类 / 聚 类 文档 。 首 先 ， 学 习 了 词 嵌 入 。 人 然后， 我 
们 通过 对 该 文档 中 找到 的 所 有 词 癌 量 进行 平均 来 创建 文档 回 量 。 接 着 ， 我 们 使 用 文档 同 量 来 分 类 / 
聚 类 属于 这 些 类 别 的 BBC 新 闻 文 章 : 娱乐 、 科 技 、 政 治 、 商 业 和 体育 。 在 对 文档 进行 聚 类 之 后 ， 
我 们 看 到 文档 被 合理 地 聚 关 ， 使 得 属于 一 个 类 别 的 文档 聚集 在 一 起 。 但 是 ， 对 于 一 些 异 币 文 件 ,， 我 
们 在 分 析 了 这 些 文档 的 文本 内 容 之 后 ， 发 现 这 些 文档 背后 存在 某 些 合理 的 关联 。 
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在 本 章 中 ， 我 们 研究 了 Word Embedding 的 几 种 重要 模型 : Word2vec (Skip-Gram、CBOW ) 
和 GloVe 模型 ， 对 原始 Skip-Gram、 改 进 型 Skip-Gram、 原 始 CBOW、 改 进 型 CBOW 等 之 间 的 性 
能 差异 做 了 对 比分 析 。 为 了 方便 比较 ， 我 们 使 用 了 一 种 流行 的 二 维 可 视 化 技术 t-SNE. 

然后 ， 我 们 又 介绍 了 Word2vec 算法 的 几 个 扩展 ， 以 提高 其 性 能 ， 然 后 是 几 个 基于 Skip-Gram 
和 CBOW 算法 的 新 算法 。 结 构 化 Skip-Gram 通过 在 优化 期 间 保留 上 下 文 词 的 位 置 来 扩展 Skip-Gram 
算法 , 允许 算法 基于 它们 之 间 的 距离 来 处 理 输入 词 -输出 词 。 相 同 的 扩展 也 可 以 应 用 于 CBOW 算法 ， 
这 里 给 出 了 连续 窗口 算法 。 

接 下 来 ， 我 们 讨论 了 另 一 个 词 嵌 入 学 习 技术 : GloVe 模型 。GloVe 通过 将 全 局 统计 数据 合并 到 
优化 中 ， 使 当前 的 Word2vec 算法 更 进一步 ， 从 而 提高 了 性 能 。 

最 后 ， 我 们 讨论 了 使 用 词 品 量 -文档 聚 类 /分 类 的 实际 应 用 ， 发 现 词 器 量 非常 强大 ， 并 且 人 允许 我 
们 将 相关 文档 合理 地 聚集 在 一 起 。 

在 下 一 章 中 ， 我 们 将 讨论 深度 学 习 的 代表 算法 之 一 一 一 卷 积 神经 网 络 CCNND ， 并 将 讲述 如 
何 使 用 CNN 来 利用 句子 的 空间 结构 对 它们 分 类 。 
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在 本 章 中 ， 我 们 将 介绍 一 个 众所周知 的 神经 网 络 一 一 卷 积 神经 网 络 CCNNO ， 根 据 维基 百科 
的 定义 ， 它 是 一 类 深度 前 馈 人 工 神经 网 络 ， 最 初 是 为 解决 图 像 识 别 等 问题 而 设计 的 ， 以 便 降 低 对 图 
像 数 据 预 处 理 的 要 求 及 避免 复杂 的 特征 提取 。CNN 模型 对 缩放 、 平 移 、 旋 转 等 畸变 具有 不 变性 ， 
有 很 强 的 泛 化 能 力 ， 这 一 点 与 SIFT 等 算法 类 似 ， 所 以 它 也 被 称 为 位 移 不 变 或 空间 不 变 的 人 工 神经 
网 络 (SIANN) 。 而 CNN 最 大 的 特点 是 卷 积 的 权重 值 共享 结构 ， 可 以 大 幅度 减少 神经 网 络 的 参数 
数量 ， 防 止 过 拟 合 ， 同 时 又 降低 了 神经 网 络 模型 的 复杂 程度 ， 这 样 一 来 ， 我 们 在 进行 深度 模型 训练 
时 性 能 表现 更 佳 且 又 不 必 担 心 内 存 溢出。 虽然 CNN 最 初 主 要 是 为 解决 图 像 问题 而 设计 的 ， 但 是 现 
在 它 在 目标 检测 、 视 频 识 别 、 推 荐 系统 和 目 然 语 言 处 理 方 面 也 得 到 广泛 的 应 用 。 

在 本 章 中 ， 我 们 会 对 CNN 的 来 龙 去 脉 、 组 成 部 分 、 基 本 运算 单元 、 基 本 原理 进行 详细 解读 ， 
接着 ， 我 们 会 分 析 4 类 第 见 的 经 典 卷 积 网 络 的 结 架 构 和 特性 ， 最 后 我 们 会 给 出 两 个 应 用 案例 : 手写 
数字 识别 和 基于 卷 积 神经 网 络 的 句子 分 类 。 


9.1. 认识 卷 积 神经 网 络 


5.1.1 卷 积 神经 网 络 的 历史 演变 


卷 积 神经 网 络 的 理念 起 源 于 早期 科学 家 Sherrington 首次 提出 的 感受 野 概 念 〈Receptive Field, 
(Observations on the scratch -reflex in the spinal dog》， 第 一 次 出 版 日 期 为 1906 年 3 月 13 日 )。 
Sherrington(1906) 首 次 使 用 术语 “感受 野 ?来 描述 可 以 在 狗 喘 体 上 引起 划 痕 反射 的 皮肤 区 域 .Hartline 
T 1938 年 将 该 术语 应 用 于 单个 神经 元 。 二 十 世纪 五 六 十 年 代 ，Hubel 和 Wiesel 对 皮质 生理 学 使 用 
了 感受 野 组 织 这 个 概念 , 提出 了 这 样 的 理论 : 在 视觉 系统 一 个 层面 上 的 细胞 的 感受 野 是 由 视觉 系统 
较 低层 的 细胞 输入 形成 的 .通过 这 种 方式 , 可 以 组 合 小 而 简单 的 感受 时 ,再 形成 大 而 复杂 的 感受 野 。 
后 来 的 研究 人 员 通 过 允许 视觉 系统 的 一 个 层次 的 细胞 受到 来 目 更 高 层次 的 反馈 的 影响 , 曾 述 了 这 种 
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简单 的 分 层 排 列 〈 来 自 维基 百科 ) 。 二 十 世纪 八 十 年 代 ， 日 本 科学 家 Kunihiko Fukushima 提出 了 
神经 感知 机 〈Neocognitron) 的 概念 ， 被 认为 是 卷 积 网 络 实现 的 最 初 原型 。 神 经 感知 机 中 包含 两 类 
神经 元 ， 即 S-cell 和 C-cell。 这 里 S-cells 用 于 特征 提取 ， 对 应 现在 主流 卷 积 神经 网 络 中 的 滤波 〈 也 
就 是 卷 积 核 ) 操作 ;”C-cell 用 于 抗 形变 ， 对 应 现在 的 激活 函数 、 最 大 池 化 等 操作 。 

正常 情况 下 ， 一 个 卷 积 神经 网 络 由 多 个 卷 积 层 组 成 ， 而 每 个 卷 积 层 又 会 进行 一 系列 操作 ， 有 具体 
如 下 : 


d) 通过 多 个 不 同 的 滤波 和 偏差 提取 出 图 像 的 局 部 特征 ， 这 样 每 一 个 卷 积 核 都 会 映射 出 一 个 
新 的 二 维 图 像 。 

(2) 对 于 COD 中 卷 积 核 滤波 后 的 输出 结 末 进行 非 线性 激活 函数 处 理 。 目 前 ，ReLU 函数 是 最 
流行 的 非 线性 激活 函数 。 

(3) 对 于 (2) 中 激活 函数 后 的 结果 再 进行 池 化 操作 〈 降 采样 ) 。 现 在 多 数 使 用 最 大 池 化 操作 
保留 最 显著 的 特征 ， 并 提升 模型 的 畸变 容忍 能 力 。 


郑 积 神经 网 络 的 发 展 路 径 如 图 5-1 所 示 。 关 于 卷 积 神经 网 络 的 历史 沿革 路 人 径 ， 这 里 就 不 做 过 多 
的 解读 了 。 


网 络 加 深 


Sl 
两 条 路 线 的 集成 ， 训 练 更 深 


的 网 络 结构 ， 加 速 收敛 


增强 卷 积 模块 功能 
从 分 类 任务 到 检测 任务 
增加 新 的 功能 单元 
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5-1 卷 积 神经 网 络 发 展 路 径 图 


5.1.2 ” 卷 积 神经 网 络 结构 简 述 


最 初 ,输入 内 容 被 连接 到 一 组 卷 积 层 ， 这 些 卷 积 层 在 输入 层 上 滑动 一 组 权重 值 《 有 时 也 称 为 卷 
积 窗 口 或 过 滤器 ) ， 并 通过 卷 积 操作 的 方式 产生 一 个 输出 。 卷 积 层 使 用 组 织 起 来 的 少量 权重 值 仅 能 
颖 善 每 层 中 的 一 小 部 分 输入 ， 这 一 点 不 像 全 连接 那样 可 以 使 得 这 些 权重 值 在 茶 些 维度 〈 例 如 ， 图 像 
的 宽度 和 高 度 尺 寸 ) 可 以 实现 共享 。 由 于 CNN 使 用 卷 积 运算 ， 通 过 在 符合 要 求 的 维度 上 滑动 这 个 
小 的 权重 值 集合 来 共享 权重 值 以 便 产 生 输 出 ， 最 终 可 以 得 到 卷 积 运算 的 结果 ， 如 图 5-2 所 示 。 如 果 
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一 个 卷 积 过 滤器 输出 的 图 案 出 现在 原 图 像 中 , 那么 卷 积 输出 的 是 高 区 位 值 , 反之 , 就 是 低 区 位 值 . 后 
面 会 给 出 数字 化 解释 。 当 然 ， 我 们 也 可 以 发 现 ， 通 过 卷 积 各 运算 之 后 ， 最 后 得 到 了 一 个 矩阵 ， 该 算 
阵 可 以 展现 出 前 面 映射 过 来 的 图 案 是 否 在 指定 图 像 中 出 现 ， 如 图 5-2 所 示 。 


o JNJ LL TT 

of TT 

* V = Smaller Value > 0 ~ po 
be T 


u 

* C = Large Value >> 0 EET 
uw 
WEHSHEMNESENN 


( 


Actual Imag e — of Convolution 
图 5-2 卷 积 操作 在 图 像 上 的 展示 
此 外 ， 这 些 卷 积 层 可 选择 与 池 化 / 子 采样 层 混 合 在 一 起 使 用 ， 这 样 就 降低 了 输入 的 维度 。 当 我 
们 进行 降 维 操作 时 ， 不 但 能 迫使 CNN 学 习 较 少 的 信息 ， 而 且 可 以 让 CNN 的 不 变量 进行 转化 ， 从 
而 使 得 模型 得 到 更 好 的 归 一 化 和 正则 化 。 通 过 将 输入 (例如 图 像 ) 分 成 许多 很 小 的 小 块 并 将 每 个 小 
块 转换 成 单个 元 素 ， 维 度 就 被 降低 了 。 在 图 5-3 中 ， 我 们 将 说 明 如 何 进 行 池 化 运算 使 CNN 的 不 变 
量 进行 平移 。 


a" 


Max Pool Output 


| || NN 


Actual Image 
(translated on y axis) 


5-3” 池 化 操作 帮助 CNN 进行 不 变量 平移 


Convolution Output Max Pool Output 


在 图 5-3 中 ,我 们 有 原始 图 像 和 在 y 轴 上 略微 平移 的 图 像 。 这 两 个 图 像 通 过 卷 积 运算 输出 ， 可 
以 看 到 值 10 出 现在 卷 积 输出 中 稍微 不 同 的 位 置 ,但 是 使 用 最 大 池 化 ( 取 每 个 粗 线 方块 内 的 最 大 值 ) 
后 ， 我 们 可 以 在 最 后 获得 相同 的 输出。 稍 后 将 详细 讨论 这 些 操作 。 

最 后 ， 上 面 的 得 出 被 回馈 到 一 组 全 连接 层 ， 然 后 将 全 连接 层 后 的 输出 转发 到 最 终 的 分 类 /回归 
层 〈 例 如 ， 句 子 / 图 像 分 类 ) 。 正 常情 况 下 ， 全 连接 层 包含 了 CNN 权重 值 总 数 的 大 部 分 ， 而 知 积 层 
只 有 一 小 部 分 权重 值 。 有 关 研 究 发 现 ， 含 有 全 连接 层 的 CNN 比 没有 全 连接 层 的 CNN 在 性 能 上 表 
现 更 好 。 这 可 能 是 因为 苍 积 层 由 于 尺寸 小 而 学 习 了 更 多 的 局 部 特征 , 而 全 连接 层 则 提供 了 关于 如 何 
将 这 些 局 部 特征 连接 在 一 起 以 产生 预期 的 最 终 输 出 的 全 局 图 像 。 图 5-4 显示 了 用 于 对 图 像 进行 分 类 
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的 典型 CNN 架构 。 
TIT m Iz 
Em... ; 
ETE 
B vuv» 本 
Convolutional i Convolutional ; Fully 
RGB Input Layer with 5 jm = Layer with jw. Connected pean 
Filters y 10 Filters y Layers y 


图 5-4 CNN 典型 架构 
从 5-4 图 中 可 以 明显 地 看 出 ，CNN 在 学 习 期 间 保 留 了 输入 的 空间 结构 。 保 留 空间 结构 将 会 使 
CNN 利用 输入 层 有 价值 的 空间 信息 并 以 较 少 的 参数 学 习 输 入 。 空 间 信 息 的 价值 以 图 5-5 为 例 做 简 
要 说 明 。 


ENAS a 
图 5-5 将 图 像 展开 成 一 维 向 量 会 丢失 一 些 重要 的 空间 信息 


正如 我 们 所 看 到 的 那样 ， 当 猫 的 二 维 图 像 被 释放 成 为 一 维 癌 量 时 ， 耳 条 不 再 靠近 眼睛 ,鼻子 也 
远离 眼睛 。 这 意味 着 我 们 在 展开 过 程 中 破坏 了 一 些 有 用 的 空间 信息 。 

我 们 可 以 发 现 , 卷 积 神经 网 络 只 不 过 是 各 层级 网 络 的 功能 和 形式 发 生 了 变化 而 已 , 本 质 上 依旧 
是 层级 网 络 。 结 合 图 5-4 可 知 ， 卷 积 神经 网 络 各 层级 结构 如 下 : 

e 输入 层 /Input Layer. 
卷 积 运算 层 /Convolutional ( CONV ) Layer. 
激励 层 /Activation Function Layer。 
池 化 层 /Pooling Layer. 
全 连接 层 /Fully Connected ( FC ) Layer. 

卷 积 神经 网 络 是 一 个 多 层 的 神经 网 络 ， 其 基本 运算 单元 包括 卷 积 运算 、 池 化 运算 、 全 连接 运算 
和 识别 运算 ， 如 图 5-6 所 示 。 
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卷 积 运算 ， 池 化 运算 ， _ 全 连接 运算 _ 识别 运算 
一 一 一 一 一 全 


s327 |: 


卷 积 核 〈 亦 称 滤波 器 ) HLE EFR) 
5-6 ” 卷 积 神经 网 络 的 基本 运算 单元 结构 图 
下 面 针 对 上 面 CNN 的 5 个 层级 做 进一步 的 解读 。 


52 输入 层 


数据 输入 层 主 要 是 对 原始 数据 进行 预 处 理工 作 ， 具 体 如 下 : 


COD 去 均值 处 理 。 我 们 将 对 输入 样本 数据 各 个 维度 进行 中 心 化 为 0 的 处 理工 作 ， 把 输入 样本 
的 中 心 移 到 坐标 系 原点 ， 以 避免 输入 数据 出 现 过 多 偏差 ， 影响 训练 效果 ， 这 就 是 去 均值 处 理 。CNN 
只 对 训练 集 进行 去 均值 处 理 ， 如 图 5-7 所 示 。 

(2) 归 一 化 处 理 。 把 所 有 数据 都 归 一 到 同样 的 取 值 范围 内 ， 即 减少 因 各 维度 数据 取 值 范围 的 
差异 而 珊 来 的 干扰 。 

(3) 去 相关 (PCA) /白化 处 理 。 去 相关 就 是 用 PCA 进行 降 维 工作 。 白 化 是 对 数据 样本 各 个 
特征 轴 上 的 幅度 归 一 化 。 去 相关 与 白化 效果 如 图 5-8 所 示 。 


original data zero-centered data normalized data 


5 ”去 均值 与 归 一 化 效果 图 


original data decorrelated data whitened data 


-0 
L1 35 


5-8 ”去 相关 与 白化 效果 图 
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9.9. 2 iA 


在 本 节 中 ， 我 们 首先 讨论 没有 步 幅 (Stride) 和 填充 (Padding) 的 卷 积 运算 ， 然 后 我 们 将 讨论 
带 步 幅 的 卷 积 运算 和 帝 填 充 的 卷 积 运算 ， 最 后 会 讨论 一 些 被 称 为 转 置 卷 积 的 内 容 。 


5.3.1 标准 卷 积 


卷 积 层 操 作 是 CNN 的 核心 部 分 ， 这 一 层 有 两 个 关键 的 操作 : 
CD 局 部 关联 。 每 一 个 神经 元 被 看 作 一 个 过 滤器 (Filter) 。 
(2) 感受 野 (Receptive Field) 滑动 〈 或 称 为 过 滤器 滑动 )， 过 滤器 对 局 部 数据 进行 计算 处 理 。 
对 于 大 小 为 nxn 的 输入 和 mxm 的 过 滤器 (又 称 为 滑动 窗口 或 权重 值 patch, 有 的 地 方 也 称 为 神 
经 元 ) ， 其 中 nem, BEMA X, NEHN 不 ， 输 出 为 态 ， 则 在 每 个 位 置 Gj) 上 的 输出 如 式 
(5.1) 所 示 。 
hg, jj = Xia 221-4 WD X(k-1,j1-1) (5.1) 
XH, IS Lj«n-m-cl.xa p Wa, piha, jj) 分别 表示 了 WAHR G, j) 位 置 处 
的 值 。 如 公式 所 示 ， 虽 然 输入 大 小 为 nxn， 但 在 这 种 情况 下 ， 输 出 大 小 将 为 (n -到 二 TD)x(z -m+1)。 
此 外 ，m 被 称 为 过 滤器 大 小 。 下 面 让 我 们 通过 一 个 可 视 化 的 例子 进行 解读 ， 如 图 5-9 Bran. 
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5-9 过 滤器 (m) —3 和 单位 步 幅 且 没有 填充 的 卷 积 运算 示例 


这 里 以 图 5-9 中 最 左 侧 图 示 为 例 ， 过 滤器 息 阵 大 小 为 mxm， 即 3x 3 WERE CP EA E A E 
EBE) ， 对 于 输入 大 小 (nxn) 为 4x4 的 矩阵 (最 底部 矩 阵 〉 而 言 ， 将 会 得 到 的 输出 矩阵 大 小 为 (n - m 
+1)x(n-m+1), BH(4-3 + 1)x(4 -3 + 1)=2x2 的 输出 矩阵 (最 上 面 的 和 矩阵) 。 利 用 上 面 的 公式 ， 我 
们 给 出 经 过 卷 积 运算 后 输出 的 值 ， 有 具体 算 法 如 下 : 


”A oe hk Sr eh le a E a pe pe Pe oh a 2 ke 5 2 a e, 


这 里 的 步 长 为 1， 且 输入 十 阵 没 有 被 填充 ， 以 此 类 推 ， 让 过 滤 船 在 输入 层 上 逐步 滑动 ， 最 终 对 
整个 输入 层 进行 卷 积 运算 得 到 一 个 确认 的 2x2 输出 矩阵 。 图 中 的 顶部 矩形 ( 卷 积 运算 产生 的 输出 ) 
有 时 被 称 为 特征 映射 。 
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当然 , 对 于 图 像 水 平和 垂直 边缘 检测 而 言 ， 这 里 可 以 通过 水 平 过 滤器 和 垂直 过 滤器 来 实现 。 H 
前 ， 对 于 一 些 常 用 的 过 渡 占 也 存在 看 不同 的 争论 ， 但 是 在 CNN 中 我 们 把 这 些 过 小 占 当 成 要 学 习 的 
参数 ，CNN 训练 的 目标 就 是 去 解析 过 滤 占 的 参数 。 


5.3.2 市 步 幅 的 卷 积 


在 5.3.1 节 的 示例 中 , 我 们 只 是 将 过 滤器 移动 了 1 个 步 幅 , 其 实 我 们 也 可 以 做 更 多 步 幅 ( 步 长 ) 
的 移动 。 在 公式 (5.1) 的 基础 上 做 修改 ， 包 括 s; 和 的 步 幅 ， 我 们 可 以 得 到 带 步 幅 的 卷 积 情况 下 
的 输出 大 小 ， 如 公式 (5.2)〉 所 示 。 
háj = 24-1 2:121 Wael) X(G-DxsitkGO-Dxsj+D (5.2) 


这 里 , 1-  i« floor[(n —m)/si] - 1^ floor[(n — m)/s;] * 1. 
在 这 种 情况 下 ， 随 着 st 和 sj 的 大 小 增加 ， 其 对 应 输出 将 变 小 。 下 面 比 较 图 5-9 Cstride = 1) 和 图 


5-10 (stride =2) 中 给 出 的 不 同步 幅 的 影 啊 。 


po LAT 
LL SLL S LL SL LS 
LIL SLALA 2f SZ 


5-10 过 滤器 (m) =2 和 stride=2 有 目 没 有 填充 的 卷 积 运算 示例 
具体 计算 过 程 与 5.3.1 节 中 类 似 ， 这 里 就 不 再 重复 给 出 了 。 
显然 ， 由 图 5-10 可 知 ， 使 用 步 幅 (Stride〉 进行 卷 积 运算 有 助 于 降低 输入 样本 数据 的 维度 ， 与 
池 化 运算 功能 类 似 ， 所 以 有 时 也 会 使 用 帝 有 步 幅 的 卷 积 代 蔡 CNN 中 的 池 化 运算 ， 因 为 它 降低 了 计 
算 的 复杂 度 。 


5.3.3 ”市 填充 的 卷 积 


在 5.3.1 和 5.3.2 节 中 ， 我 们 分 别 使 用 一 个 3x3 的 过 滤器 和 一 个 2x2 的 过 滤器 对 4x4 的 输入 样 
本 数据 进行 卷 积 运算 ， 均 得 到 了 一 个 2x2 的 输出 ， 输 出 数据 大 小 为 2 - m 1)x(n-m +1), HX, 
这 样 卷 积 运算 的 缺点 也 很 明显 , 假设 输入 的 样本 是 图 像 数 据 ， 那么 卷 积 图 像 的 大 小 会 不 断 缩小 ， 且 
图 像 边 界 的 元 素 只 被 对 应 的 一 个 输出 所 使 用 ， 因此， 图 像 边缘 处 的 像素 在 输出 时 会 减少 ,显然 这 样 
的 运算 使 得 原 图 像 边缘 的 信息 丢失 很 多 。 为 了 解决 这 个 问题 ， 我 们 引入 了 填充 (Padding) 操作 ， 
即 在 图 像 卷 积 运算 之 前 沿 着 图 像 边缘 均 用 0 值 进 行 填充 。 假 设 步 幅 (Stride) 为 1， 输 出 大 小 的 如 
公式 (5.3) 所 示 。 
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hij) = 24k l-1 Wl) X4k-(m-1),j41-(m-1)) (5.3) 


这 里 : 1xLj«m: F ipn RE ij<0, Wxgaj = 0. 
图 5-11 给 出 了 滤波 Gn) =3、 步 幅 (GS) — 1 且 填 充值 为 0 的 卷 积 运算 。 


图 5-11 具有 过 滤器 大 小 (m=3) 、 步 幅 (s = D 和 零 填充 的 卷 积 运算 
这 里 过 滤器 矩阵 大 小 为 3x3, 而 填充 之 后 , 输入 矩阵 大 小 为 6x6, 则 输出 矩阵 大 小 变 为 (6-3+1) 
x (6-341) =4x4。 以 图 5-11 中 输入 层 左 上 侧 为 例 ， 计 算 卷 积 之 后 对 应 的 输出 值 大 小 : 
0x2+0x3+0x1+1x0+2x2+3x3+0x2+3x4+1x1=26 
以 此 类 推 ， 让 过 滤器 在 输入 层 上 逐步 滑动 ， 最 终 对 整个 输入 层 进行 卷 积 运算 得 到 一 个 确认 的 
4x4 输出 矩阵 。 


5.34 HASI 


尽管 卷 积 运算 在 数学 方面 看 起 来 很 复杂 ， 但 它 可 以 简化 为 矩阵 乘法 ， 这 就 出 现 了 转 置 卷 积 
(Transposed Convolution) . 简单 理 解 就 是 ， 对 于 卷 积 在 神经 网 络 结构 中 的 正 回 和 反 回 传播 做 相反 
的 运算 。 现 在 有 如 图 5-12 所 示 的 卷 积 运算 。 


* 999 


图 5-12 单位 步 幅 在 4x4 输入 上 3x3 滤波 且 无 填充 (n=4, m=3, s=1 Hp=0) 
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以 图 5-11 中 表示 的 卷 积 为 例 ， 通 过 线性 运算 将 输入 和 输出 从 左 到 右 、 从 上 到 下 展开 ， 则 输入 
下 和 宅 阵 被 平坦 化 为 16 维 同 量 ， 输 出 五 被 平坦 化 为 4 维 问 量 ， 该 问 量 随后 被 重新 整形 为 2X2 输出 
算 阵 ， 也 可 以 得 到 展开 后 卷 积 的 稀 下 算 阵 4， 如 下 所 示 。 


16,1) — 

xen X1,1 X12» X1,3 X1,4 X2,1/ X225) X23; X2,4,.5 X4, 1 X42» X4,3) X44 

A(416) 
11 Wiz Wi3 0 W21 W22 W23 0 W31 W32 W33 0 0 0 0 0 

_| 0 Wa W2 W3 0 Wa W22 W23 0 W31 W32 W33 0 0 0 0 
0 0 0 0 wi; W2 Wi; 0 Wa W22 W23 0 W31 W32 W33 0 
0 0 0 0 0 Wi41 Wi2 Wi3 0 W21 W22 W23 0 W31 W32 W33 


H(^) - AQC19 x a0 


其 中 ， 非 零 元 素 是 权重 值 ws) (i 和 /分 别 是 过 滤器 的 行 和 列 ) 。 

注意 ， 由 于 本 章节 的 所 有 索引 都 是 从 1 开始 ， 而 不 是 从 0 开始 ， 因 此 上 方 矩 阵 是 从 左上 角 w, 1 
开始 到 右 下 角 ws 3 结束 。 读 者 也 可 以 查阅 一 下 Vincent Dumoulin 等 人 写 的 《Guide to Convolution 
Arithmetic for Deep Learning) , 文章 里 面 关 于 转 置 卷 积 的 论述 很 好 , 涉及 的 索引 默认 是 从 0 开始 的 。 

现在 ,通过 将 输出 H% 了 重新 整形 为 H(%33， 我 们 获得 了 卷 积 输出 。 现 在 让 我 们 将 这 个 结果 转 回 
FI) n FI m: 

通过 将 输入 Xom 平 坦 化 〈 展 开 ) 29x 0^0, jpg w 创建 算 阵 AC(m-m+D mm)， 如 前 面 
所 示 ， 我 们 获得 再 Cn-m+D 涪 ， 然 后 将 其 重新 整形 为 及-m+lm-m+D 。 接 下 来 ， 为 了 获得 转 置 
卷 积 ， 我 们 只 需 转换 4 就 可 以 得 到 如 下 结果 : 

(R)? = A md) mm) R= A mmng immi 

这 里 ， 甸 是 转 置 卷 积 的 结果 输出 。 

关于 转 置 卷 积 束 介 绍 到 这 里 , 下 面 我 们 将 要 介绍 卷 积 神经 网 络 的 另外 一 个 重要 特性 一 一 参数 共 
享 机 制 。 


5.35 参数 共享 机 制 


CNN 最 大 的 特点 是 卷 积 的 权重 值 共 享 结构 ， 可 以 大 幅度 减少 神经 网 络 的 参数 个 数 ， 防 止 过 拟 
合 且 同时 又 降低 了 神经 网 络 模型 的 复杂 程度 ,所 以 我 们 这 里 探讨 一 下 CNN 的 权重 值 共 享 机 制 问题 。 
所 谓 权 重 值 共享 ， 就 是 针对 一 张 给 定 输入 图 像 用 一 个 过 滤器 (Filter〉 去 扫描 ， 过 滤器 里 面 的 数 叫 
作 权 重 值 ， 如 果 这 张 图 像 的 每 个 位 置 是 被 同样 的 过 滤器 扫描 ， 则 对 应 权重 值 是 一 样 的 ， 也 就 可 以 说 
是 共享 的 。 举 例 说 明 ， 如 图 5-13 所 示 。 

由 图 5-13 可 知 ， 左 侧 有 一 张 1000x1000 像素 的 图 像 且 有 100 万 个 隐藏 层 神经 元 ， 那 么 如 果 是 
全 连接 的 话 〈 每 个 隐藏 层 神 经 元 都 连接 到 图 像 中 的 每 一 个 像素 点 ) ， 这 里 就 有 
1000x1000x1000000=1012 个 连接 ， 那 么 权重 值 参数 个 数 也 束 是 102 人 个， 显然， 这 时 的 参数 个 数 太 
多 ， 下 一 步 就 要 减少 参数 。 

图 像 的 空间 联系 是 局 部 的 , 与 一 个 人 通过 一 个 局 部 的 感受 时 去 感受 外 界 图 像 类 似 , 那么 每 一 个 


130 | TensorFlow 与 自然 语言 处 理应 用 


神经 元 就 不 必 对 全 局 图 像 做 感受 而 只 对 局 部 图 像 区 域 做 感受 即 可 。 这 样 一 来 , 输出 层 的 每 一 个 像素 
就 只 和 输入 层 图 片 的 一 个 局 部 相连 ， 显 然 需要 参数 的 个 数 就 会 大 大 减少 。 当 然 ， 这些 感 受到 的 局 部 
图 像 区 域 会 在 更 高 层 被 综合 起 来 ， 从 而 得 到 全 局 的 图 像 信 息 。 如 图 5-13 右 图 所 示 ， 局 部 感受 野 是 
fxf 即 10x10， 因 为 隐藏 层 只 需要 与 这 个 fxKR10x10) 的 局 部 图 像 相 连接 ， 所 以 100 万 个 隐藏 层 神经 元 
就 只 有 1 亿 个 连接 ， 即 108 个 参数 ， 显 然 参 数 个 数 比 原 来 少 了 不 少 。 其 实 ， 这 样 的 参数 个 数 还 是 很 
多 ， 我 们 下 面 继续 降低 参数 个 数 。 

其 实 ， 图 像 还 有 另外 一 个 重要 特性 ， 那 就 是 图 像 底层 特征 与 特征 在 图 像 中 的 位 置 无 关 。 例 如 ， 
无 论 是 图 像 中 间 的 边缘 特征 还 是 图 像 边 角 处 的 边缘 特征 , 我们 都 可 以 用 类 似 的 特征 提取 器 进行 特征 
提取 。 对 于 主要 针对 底层 特征 的 前 几 层 网 络 ， 可 以 把 上 面 局 部 全 连接 层 中 的 每 一 个 fxf 的 小 方块 所 
对 应 的 权重 值 进 行 共享 ， 以 此 进一步 减少 参数 个 数 。 换 句 话 讲 ， 输 出 层 的 每 一 个 像素 ， 是 由 输入 层 
对 应 位 置 fxf 的 局 部 图 像 与 同一 组 fxf 的 权重 值 做 内 积 ， 再 由 非 线 性 单元 计算 得 来 的 。 最 终 ， 无 论 
图 像 起 初 大 小 如 何 ， 只 需要 fxf 个 参数 就 可 以 了 。 因 为 一 组 fxf 参数 只 能 得 到 一 张 特征 图 (Feature 
Map) ， 所 以 有 几 张 特征 图 再 乘 以 几 就 可 以 得 到 最 终 的 参数 个 数 。 这 里 ， 以 图 5-13 为 例 ， 因 为 隐 
藏 层 每 一 个 神经 元 都 连接 fxR10x10) 的 局 部 图 像 区 域 , 也 就 是 说 每 一 个 神经 元 存在 10x10=100 个 连 
接 权 重 值 参数 , 每 个 神经 元 用 的 是 同一 个 卷 积 核 去 卷 积 图 像 ,所 以 这 里 只 需要 100 个 权重 值 参数 就 
可 以 了 , 这 就 是 权重 值 共 享 。 当 然 , 假设 有 100 组 权重 值 参数 ,那么 我 们 总 共 需 要 100x100— 10000 
个 参数 就 可 以 了 。 当 然 ， 像 人 脸 图 像 这 样 的 高 级 特征 一 般 是 与 位 置 有 关 的 。 眼 睛 和 嘴 的 位 置 不 同 ， 
在 高 层 进行 处 理 时 ， 不同 位置 需要 用 不 同 的 神经 网 络 权重 值 。 由 于 这 不 是 卷 积 运算 的 内 容 ， 因 此 这 
里 就 不 做 过 多 阐述 了 。 

FULLY CONNECTED NEURAL NET LOCALLY CONNECTED NEURAL NET 


Example: 1000x1000 image 
1 


hidden units 
ENN M hidden ur 


Mi) 10^12 parameters!!! 


一 -一 一 


O Example: 1000x1000 image 
IM hidden units 
O Filter size: 10x10 
m 100M parameters 
- 
LI 
- Spatial correlation is local 
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5-13 ”参数 共享 机 制 示 例 图 


对 于 RGB 的 彩色 图 像 而 言 ,将 原来 图 像 的 宽度 x 高 度 调整 为 宽度 x 高 度 x 3 (3 是 通道 数 ) 即 可 。 
其 实 , 更 确切 一 点 , 就 权重 值 共 享 而 言 , 它 只 是 在 每 一 个 过 滤器 (Filter) 上 的 每 一 个 通道 (Channel) 
是 共享 的 。 

至 此 ， 我 们 完成 了 卷 积 运 算 的 讨论 ， 下 一 步 我 们 将 开启 池 化 运算 。 
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5.4 激活 函数 
5.4.1 常见 激活 函数 及 选择 


常用 的 激活 函数 如 图 5-14 所 示 。 


Activation Functions meer free 

Sigmoid | 

e(z) -1l/(1-e7*) y : | E 
Maxout max(w”z b; wla +b) 

tanh tanh(x) ELU Pm emis) -1) Ms T 

ReLU  max(0,x) d o —— 


图 5-14 常见 的 激活 函数 汇总 
在 对 卷 积 层 输 出 的 结果 进行 非 线 性 映射 处 理 时 ， 我 们 多 数 会 据 弃 Sigmoid. tanh 函数 ， 所 以 这 
里 选择 ReLU、Leaky ReLU、Maxout、ELU 四 种 非 线性 激活 函数 。 
有 了 非 线 性 激活 函数 ， 我 们 下 面 给 出 神经 元 处 理 的 相关 流程 (结合 图 5-15 进行 简要 说 明 ， 当 
然 这 里 都 是 非 线性 函数 ) 。 


T0 wo 


synapse 
axon from a neuron 
wpzo 
dendrite 


cell body 


30777 +b ) 


(ee 


output axon 


activation 
function 


wıTı 


5-15 ”数学 模型 中 神经 元 处 理 的 一 般 流 程 
数学 模型 中 神经 元 处 理 的 一 般 流 程 如 下 : 


CD 输入 层 于 与 对 应 权重 值 做 内 积 (Dot Product， 也 称 为 点 积 ) 处 理 。 
(2) 将 激活 函数 作用 于 上 面 的 内 积 结果 。 
(3) 激活 函数 输出 相应 的 结果 。 
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5.4.2 各 个 非 线性 激活 函数 对 比分 析 


1. ReLU 函数 
最 近 几 年 ，ReLU (Rectified Linear Unit) 激活 函数 在 深度 学 习 领 域 确实 比较 受 欢迎 ， 它 的 译名 
是 修正 线性 单元 ， 这 个 函数 其 实 是 一 个 非 线性 操作 ， 主 要 起 源 于 传统 激活 函数 、 脑 神经 元 激活 频率 
研究 、 稀 跑 激 活性 。 
ReLU 函数 的 数学 表达 式 和 对 应 图 像 如 图 5-16 所 示 。 
f (x) = max(0, x) 


5.16 ReLU 函数 示意 图 


我 们 发 现 ， 当 x<0 时 ，ReLU 是 硬 饱 和 ; 当 x>0 时 , 不 存在 饱和 区 问题 。 因 此 ,激活 函数 ReLU 
可 以 在 x>0 时 保持 梯度 不 衰减 , 进而 缓解 梯度 消失 问题 这 就 允许 我 们 直接 以 监督 的 方式 训练 深度 
神经 网 络 ,而 无 须 依赖 无 监督 的 逐 层 预 训练 。 随 着 训练 的 不 断 深入 ,存在 部 分 输入 会 落 入 便 饱 和 区 ， 
导致 对 应 权 值 无 法 更 新 。 这 种 现象 被 称 为 “神经 元 死亡 ”。 与 sigmoid 类 似 ，ReLU 的 输出 均值 也 
大 于 0， 偏 移 现象 和 神经 元 死亡 会 共同 影响 网 络 的 收敛 性 。 

综 上 所 述 ， 我 们 对 ReLU 函数 的 优 缺 点 做 简单 的 总 结 ， 有 具体 如 下 : 


(1) 优点 

e 没有 饱和 区 ， 收 敛 速度 比较 快 。 

e 梯度 计算 起 来 比较 简单 ， 只 需要 一 个 国 值 便 可 以 获得 激活 值 。 

(2) 缺点 

@ ReLU 有 时 表现 得 很 脆弱 ， 甚 至 进入 死亡 区 。 

€  ReLU 激活 函数 作用 后 的 输出 结果 均值 不 是 0。 

关于 梯度 爆炸 和 梯度 消失 的 理解 ， 简 单 来 说 ， 束 是 在 反 回 传播 算法 过 程 中 ， 因 为 使 用 了 和 矩阵 求 
导 链 式 法 则 , 这 里 存在 一 长 串 连 乘 , 当 连 乘 数字 在 每 一 层 均 小 于 1 时 ,就 会 引起 梯度 越 徘 前 乘 越 小 ， 
进而 梯度 消失 ， 反 之 ， 梯 度 越 靠 前 乘 越 大 ， 进 而 梯度 发 生 爆 炸 。 所 以 ， 有 时 ReLU 的 表现 很 脆弱 。 
如 果 在 变量 更 新 很 快 的 情况 下 还 没有 找到 最 佳 值 , 那么 进入 小 于 0 的 分 段 就 会 迫使 梯度 消失 (梯度 
值 变 为 0) ， 也 就 是 这 时 部 分 输入 会 落 入 人 硬 饱 和 区 ， 以 至 于 无 法 实现 继续 再 更 新 ， 所 以 我 们 在 使 用 
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ReLU 激活 函数 时 应 该 控制 好 学 习 率 (Learning Rate) ， 否 则 神经 元 会 有 很 大 的 概率 进入 死 区 。 这 
里 再 强调 一 次 ，ReLU 激活 图 数 有 时 表现 得 很 脆弱 ， 但 从 总 体 来 看 ReLU 激活 图 数 至 少 解决 了 部 分 
梯度 消失 问题 ， 本 喘 还 是 有 很 好 的 应 用 价值 。 


2. ReLU 的 变 体 函 数 


针对 在 x<0 的 硬 饱 和 问题 ， 我 们 对 ReLU 进行 相应 的 改进 ， 便 得 到 了 改进 后 的 激活 函数 ReLU 
变 体 一 一 PReLU (ParametricRectifier， 人 参数 修正 器 ) ， 其 数学 表达 式 如 下 ， 图 像 如 图 5-17 所 示 。 


f (xi) = max(a;, xi) 


图 5-17 ReLU 变 体 函数 示意 图 

这 里 ，@ij 是 可 以 变化 且 能 进行 学 习 的 ，i 表示 通道 数 。 

当 wi 的 值 退化 到 0 时 ，PReLU 函数 就 退化 为 ReLU 函数 。 

当 @a; 取 一 个 非常 小 的 固定 值 时 (比如 为 0.01) , PReLU 函数 退化 为 Leaky ReLU (LReLU) Ff 
数 。 在 这 种 情况 下 ， 我 们 能 够 做 到 既 修 正 了 数据 分 布 ， 又 保留 了 一 些 负 轴 上 的 值 ， 进 而 保证 了 负 轴 
信息 不 会 全 部 丢失 。 

当 wi 从 高 斯 分 布 中 随机 产生 时 ，PReLU 函数 便 成 了 Randomized Leaky ReLU 函数 。 它 的 基本 
原理 就 是 ， 在 训练 过 程 中 ，aij 在 一 个 高 斯 分 布 中 随机 产生 ， 然 后 对 测试 过 程 进行 修正 。 

另外 ， 当 不 同 的 通道 使 用 不 同 的 q; 时 ， 参 数 是 很 少 的 。 而 BP 更 新 qj 时， 采用 了 带动 量 的 更 新 
pi 3e 

3. Maxout 为数 


2013 Æ, Goodfellow 将 maxout 和 dropout 结合 后 在 ICML2013 上 提出 了 Maxout 函数 ,并 宣称 
在 MNIST、CIFAR-10、CIFAR-100、SVHN 这 4 个 数据 上 都 取得 了 当时 最 好 Cstart-of-art) 的 识别 
率 。Maxout 函数 的 数学 表达 式 如 下 : 


fix) = max; Enk) Zij 
或 者 


fi(x) = TaX(wiX +b, wi x, +b, „wi x, 十 bw) 
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仔细 查看 Maxout 函数 ， 不 难 发 现 Maxout 的 网 络 可 以 接近 任意 连续 函数 ， 几 乎 可 以 涵盖 所 有 
激活 函数 。 当 wosbo,.. wb, CO 值 时 ， 便 退化 为 ReLU 函数 。 它 的 拟 合 能 力 非常 强 ， 可 以 拟 合 任意 
rh ER AC. 

最 后 ， 我 们 会 发 现 ，Maxout 既 有 ReLU 函数 的 优点 (计算 简单 ， 不 会 饱和 ， 避 免 梯 度 消失 ) 
又 规避 了 ReLU 函数 的 不 足 ( 神 经 元 死亡 )。 同 时 ，Maxout 函数 也 不 是 没有 缺点 ， 缺 点 就 是 增加 
了 参数 和 计算 量 。 


4. ELU KAŽI 


指数 线性 单元 (Exponential Linear Unit, ELU 函数 ) 是 由 Djork-Arné Clevert, Thomas Unterthiner、 
Sepp Hochreiter 在 《Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)) C5 
新 修订 日 期 为 2016 年 2 月 22 日 ) 一 文中 提出 的 ， 其 数学 表达 式 如 下 ， 图 示 如 图 5-18 所 示 。 


fe) - (86 79 z 0 


x 2 


图 5-18 ELU 函数 示意 图 


ELU 函数 其 实 是 整合 了 了 sigmoid 和 ReLU 两 个 函数 ， 也 可 以 理解 为 对 这 两 个 函数 的 一 般 归 纳 ， 
于 是 便 使 得 其 具有 左 侧 软 饱 和 性 、 右 侧 无 饱和 性 的 特性 。 也 就 是 说 ，ELU 函数 的 右 侧线 性 部 分 能 
够 缓解 梯度 消失 而 左 侧 的 软 饱 和 又 对 输入 的 内 容 变 化 或 噪声 更 有 和 鲁 棒 性 ， 且 ELU 的 输出 均值 近似 
为 0， 因 此 其 收敛 性 更 强 。ELU 函数 中 含有 指数 ， 所 以 其 计算 量 还 是 比较 大 的 。 

至 此 ， 我 们 已 经 将 激活 函数 介绍 完毕 ， 下 面 我 们 将 对 池 化 层 进行 解读 。 


5.5 WWE 
5.5.1 理解 池 化 


由 于 图 像 具 有 “静态 型 ”属性 ， 因 此 我 们 会 继续 使 用 经 过 卷 积 层 、 激 活 后 的 特征 ， 同 时 也 说 明 
一 个 图 像 区 域 的 特征 有 很 大 概率 同样 适用 于 男 一 个 区 域 。 所 以 , 我 们 在 描述 一 个 图 像 时 ,就 可 以 对 
图 像 的 不 同 区 域 特征 进行 聚合 统计 一般 是 矩形 区 域 上 的 统计 〉。 这 种 聚合 统计 操作 就 是 池 化 。 池 
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化 输出 的 是 邻近 区 域 的 概括 统计 量 。 池 化 有 最 大 池 化 、 平 均 池 化 、 滑 动 平均 池 化 、 范 数 池 化 等 ， 
下 面 主要 介绍 常见 的 最 大 池 化 和 平均 池 化 运算 或 操作 。 


5.5.2 池 化 作用 


(1) 不 仅 可 以 在 保留 主要 特征 的 同时 减少 参数 个 数 〈 降 低 维度 ， 类 似 PCA) 和 计算 量 ， 还 可 
以 防止 过 拟 合 现象 的 出 现 。 

前 面 我 们 卷 积 运算 得 到 了 相关 特征 (Feature) ， 接 下 来 就 要 用 这 些 特征 去 进行 分 类 。 当 然 可 以 
使 用 所 提取 到 的 特征 去 训练 我 们 的 分 类 器 ,但 是 这 样 会 使 得 计算 成 本 很 高 。 就 拿 softmax 分 类 器 来 
讲 ， 现 在 有 一 个 100x100 像素 的 图 像 ， 假 如 我 们 已 经 学 习 到 了 500 个 定义 在 8x8 输入 上 的 特征 ， 
则 每 一 个 特征 和 图 像 卷 积 都 会 获得 一 个 (100-8+1) x(100-8+1)=8649 维 的 卷 积 特征 , 又 因 有 500 个 特 
征 , 所 以 每 个 样 例 (example ) 就 会 得 到 一 个 (100-8+1) x(100-8+1) x500=4324500 维 的 卷 积 特征 向 量 。 
显然 , 去 学 习 一 个 拥有 超过 400 万 维特 征 向 量 的 分 类 器 难度 不 小 , 且 在 这 种 情况 下 容易 出 现 过 拟 合 
现象 。 

(2) 池 化 运算 可 以 使 得 层次 网 络 对 输入 的 图 像 中 更 小 的 变化 、 元 余 、 变 换 维持 不 变性 。 输 入 
的 微小 元 余 将 不 会 改变 池 化 的 输出 ， 因 为 在 局 部 区 域 中 我 们 使 用 了 最 大 化 、 平 均值 等 运算 。 

(3) 可 以 帮助 我 们 获得 图 像 最 大 程度 上 的 特征 不 变性 〈Invariance) 。 这 种 不 变性 包括 平移 
(Translation) 、 旋 转 (Rotation) 、 尺 度 (Scale) 方面 的 不 变性 。 (注意 ， 卷 积 是 对 输入 平移 不 

因此 , 池 化 运算 比 没有 填充 的 卷 积 引起 的 自然 维 数 降 低 更 受 欢 迎 , 因为 我 们 可 以 决定 在 哪里 减 
小 池 化 层 的 输出 大 小 ,而 不 是 每 次 强制 它 发 生 。 实 际 上 , 没有 填充 的 强制 降 维 在 很 大 程度 上 会 限制 
我 们 在 CNN 模型 中 使 用 的 层 数 。 


5.5.3 RANK 


最 大 池 化 (Max Pooling) 运算 是 在 输出 层 上 选择 已 定义 内 核 中 的 最 大 元 素 作为 结果 来 输出 。 
最 大 池 化 移 位 就 是 输入 层 上 的 窗口 (过 滤器 在 输入 层 上 移动 的 投影 方块 ) ， 在 移 位 上 选择 最 大 的 元 
素 作为 一 个 输出 。 下 面 给 出 池 化 方程 的 定义 ， 并 以 图 5-19 所 示 为 例 。 
池 化 方程 式 : 
hij = MAX (X(G-1)xsi+1,j-1)xs jiy *¥((i-Dxsi+LG-1)xsj+2} e “(G-Dxsi+LG-Dxs jim) 
" ((i—))xsi*2,0-1)xs;1)' "' “(GDxsit2,0—Dxsjtm)’ sea ^ (G—1)xsim.G-20xs;*1)' "n 


X((i—1)xsp-m.G-1)xsy*m)) 
这 里 ， 公 式 是 包含 带 步 幅 的 池 化 运算 ， 且 


1 &i*floor[(n — m)/s;] +1 7 €jfloor|(n — m)/s;| 十 1 
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Max(1, 1, 5,6)=6 


图 5-19 最 大 池 化 运算 示意 图 


在 图 5-19 中 , 步 长 为 2、 过 滤器 为 2x2, 在 输入 层 4x4 矩阵 上 请 动 后 , 将 输入 层 分 成 4 部 分 (已 
标注 不 同 颜色 ) ， 在 每 个 区 域 中 选择 值 最 大 的 元 素 作 为 输出 ， 就 会 得 到 右 侧 的 输出 结 末 的 汇总 。 


5.5.4 平均 池 化 


平均 池 化 (Average Pooling) 的 工作 方式 类 似 于 最 大 池 化 ， 只 是 不 采用 最 大 值 ， 而 是 采用 内 核 
中 所 有 输入 的 平均 值 。 考 虑 以 下 公式 : 


i D mxmm 
vi 1,jSn-m+1 
平均 池 运 算 如 图 5-20 所 示 。 
VL /A/ MEY MAA ETAETA /2.28//2.5/^.28// 
LLL J "P e y Z / c-r 
一 一 和 一 一 一 一 AA 


JAZZ 
A AWAY 


AY ATAT, 
LIL SLALA APRIS 


图 5-20 平均 池 化 示例 图 


9.6 ”全 连接 层 


卷 积 层 和 池 化 层 的 输出 给 出 了 输入 图 像 的 高 级 特征 , 而 全 连接 层 的 目的 是 为 了 对 这 些 特征 进行 
维度 上 的 改变 并 得 到 每 个 分 类 类 别 对 应 的 概率 值 。 稍 微 正 式 一 点 讲 , 全 连接 层 是 从 输入 到 输出 的 完 
全 连接 的 权重 值 集合 , 这 些 全 连接 的 权重 值 能 够 在 从 每 个 输入 连接 到 每 个 输出 时 学 习 全 局 信息 。 具 


A 
AVAVAVAV, 
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有 完全 连接 性 的 这 些 层 允 许 我 们 将 全 连接 层 之 前 卷 积 层 所 学 习 的 特征 从 全 局 角度 组 合 起 来 , 从 而 产 
生 有 意义 的 输出 。 下 面 给 出 全 连接 层 的 大 致 直观 图 ， 如 图 5-21 所 示 。 


28 x 28 3 x 24 x 24 


3 x 12 x 12 


| 


OOOOOOOOOO 


5X5 local 2X2 max- 

receptive field pooling layer 
fully-connected 
layer 


5-21 全 连接 示例 图 
从 根本 上 讲 ， 全 连接 层 就 是 高 度 提纯 的 输入 特征 ， 通 过 最 后 一 层 的 softmax 激活 函数 进行 分 类 
或 回归 。 


9.7 整合 各 层 并 使 用 反问 传播 进行 训练 


如 上 所 述 ， 卷 积 和 池 化 层 充当 输入 图 像 的 特征 提取 器 ， 而 完全 连接 层 充当 分 类 器 。 

下 面 以 图 5-22 训练 ConvNet 为 例 ， 由 于 输入 图 像 是 船 ， 因 此 对 于 船 (Boat) 这 一 类 的 目标 概 
率 为 1， 对 于 其 他 三 个 类 的 目标 概率 为 0， 即 : 

@ 输入 图 像 = 船 

e 目标 向 量 = [0,0,1,0] 


Feature Extraction from Image Classification 
5-22 ”训练 ConvNet 
卷 积 神 经 网 络 整体 训练 过 程 如 下 : 
(1) 使 用 随机 值 初 始 化 所 有 过 滤器 和 参数 /权重 值 。 


(2) 网 络 将 训练 图 像 作 为 输入 ， 经 过 前 癌 传 播 步骤 〈 卷 积 、ReLU 和 池 化 运算 以 及 完全 连接 
层 中 的 前 癌 传 播 ) ， 并 找到 每 个 类 的 输出 概率 。 
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可 以 说 上 面 船形 图 的 输出 概率 是 [0.2,0.4,0.1,0.3]。 
由 于 在 第 一 个 训练 示例 中 权重 值 是 被 随机 分 配 的 ， 因 此 输出 概率 也 是 随机 的 。 


G) 计算 输出 层 的 总 误差 (所 有 4 个 类 的 总 和 ) 。 
AIRA Dh (目标 概率 - 输出 概率 ) ? 


(4) 利用 反 回 传播 算法 ， 根 据 网 络 中 所 有 权重 值 计算 误差 的 梯度 ， 并 使 用 梯度 下 降 来 更 新 所 
有 过 滤器 值 /权重 值 和 参数 值 ， 以 最 大 限度 地 减少 输出 误差 。 


e 权重 值 的 调整 与 它们 对 总 误差 的 贡献 成 比例 。 

e 当 再 次 输入 相同 的 图 像 时 ,输出 概率 现在 可 能 是 [0.1,0.1,0.7,0.1], 更 接近 目标 向 量 [0,0,1,0]。 

e 这 意味 着 网 络 已 经 学 会 通过 调整 其 权重 值 /过 滤器 来 正确 地 对 该 具体 图 像 进 行 分 类 ， 从 而 
减少 输出 误差 。 

e 过 滤器 数量 、 过 滤器 大 小 、 网 络 架构 等 参数 都 已 在 步骤 (1) 之 前 得 到 修复 固定 ， 并 且 在 
训练 过 程 中 不 会 发 生变 化 ， 只 更 新 过 滤器 矩阵 和 连接 权重 值 。 


(5) 对 训练 集中 的 所 有 图 像 重 复 步 又 (2) ~ 0D. 
利用 上 述 步 又 训练 ConvNet， 实 际 上 意味 着 ConvNet 的 所 有 权重 值 和 参数 已 经 过 优化 , 可 以 正 
确 分 类 来 日 训练 集 的 图 像 。 
当 一 个 新 的 (未 知 的 ) 图像 被 输入 到 ConvNet 中 时 ， 图 中 网 络 将 经 历 前 问 传 播 步 又 并 输出 每 
个 类 别 的 概率 (对 于 新 图 像 ， 输 出 概率 使 用 已 经 优化 的 权重 值 来 计算 ， 以便 正 确 分 类 所 有 之 前 的 训 
练 样 例 ) 。 如 果 我 们 的 训练 样本 足够 大 ， 网 络 将 有 机 会 对 新 图 像 有 很 好 的 泛 化 作用 ， 并 把 它们 分 到 
正确 的 类 别 中 去 。 


5.8 常见 经 典 卷 积 神经 网 络 


5.8.1 AlexNet 


1. AlexNet A 


AlexNet 是 由 Hinton 和 他 的 学 生 Alex Krizhevsky 等 人 (论文 署名 是 Alex Krizhevsky、Ilya 
Sutskever 和 Geoffrey E. Hinton, 这 不 是 重点 ,读者 了 解 一 下 即 可 ) 于 2012 年 在 其 经 典 论文 (7zageNert 
Classification with Deep Convolutional Neural Networks》 中 提出 的 深度 卷 积 网 络 ， 可 以 看 作 是 Lenet 
的 一 种 加 深 加 宽 版 本 ， 同 时 该 论文 也 是 CNN 领域 的 经 典 之 作 。 对 于 论文 中 提出 的 AlexNet 网 络 ， 
他 们 采用 了 一 系列 新 的 技术 构件 : 成 功 应 用 了 ReLU、Dropout 和 LRN 等 策略 ,第 一 次 使 用 了 GPU 
来 进行 加 速 ， 并 且 作 者 还 开源 了 他 们 在 GPU 上 训练 网 络 的 CUDA 代码 。AlexNet 的 网 络 结构 如 图 
5-23 所 示 ， 整 个 网 络 包含 了 六 亿 三 千 万 个 连接 、 六 千 万 个 参数 和 六 十 五 万 个 神经 元 ， 包 括 5 个 卷 
积 层 〈 图 中 的 C1、C2、C3、C4、C5) ， 其 中 的 三 个 后 面 还 连接 了 最 大 池 化 层 ， 最 后 还 用 了 3 个 
全 连接 层 (图 中 的 R1、R2、R3) 。 在 2012 年 ，AlexNet 以 绝对 的 优势 赢得 了 当年 ILSVRC 的 比赛 
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j 7E, top-5 错误 率 降低 至 16.4%， 相 比 于 第 二 名 26.2% 的 成 绩 有 了 巨大 的 改善 。 正 是 由 于 AlexNet 
的 出 现 ， 处 于 低谷 期 的 神经 网 络 被 再 次 推 到 世人 面前 ， 并 将 深度 学 习 【深度 卷 积 网 络 ) 在 计算 及 视 
觉 领域 置 于 统治 地 位 ， 同 时 加 速 了 深度 学 习 在 语音 识别 、 目 然 语 言 处 理 等 领域 的 拓展 应 用 。 


192 


C4 C5 R1 R2 R3 
5-23 AlexNet 网 络 结构 示意 图 (在 两 个 GPU 下 进行 ) 


2. AlexNet 基本 结构 详细 解析 


在 AlexNet 中 ， 对 于 每 次 卷 积 后 的 结果 ， 我 们 都 可 以 在 图 5-23 中 看 到 。 例 如 ， 经 过 卷 积 层 C1 
后 ,原始 的 图 像 变 成 了 55x55 的 尺寸 , 一 共有 96 个 通道 , 分 布 在 2 张 3GB 的 显卡 上 ， 所 以 图 5-23 
中 一 个 立方 体 的 尺寸 是 55x55x48 (48 是 通道 数目 ) ， 而 在 这 个 立方 体 里 面 还 有 一 个 5x5x48 的 小 
立方 体 ， 这 个 就 是 C2 卷 积 层 的 核 尺 寸 ，48 是 核 的 厚度 。 这 样 我 们 就 能 看 到 每 一 层 的 卷 积 核 尺 寸 以 
及 每 一 层 卷 积 之 后 的 尺寸 了 。 


大 多 数 情况 下 ， 我 们 看 到 的 AlexNet 网 络 结 构 都 是 用 图 5-23 来 表示 的 ， 但 是 实际 上 ， 输 


入 图 像 的 尺寸 不 是 224x224x3，, 而 是 227x227x3 ( 其实 可 以 用 224 的 尺寸 推导 一 下 ， 就 会 
发 现 边界 填充 的 结果 是 小 数 ， 这 明显 是 不 对 的 。 


下 面 我 们 对 ALexNet 网 络 结构 进行 详细 解析 。 

(1) 第 一 层 输入 数据 为 原始 的 227x227x3 的 图 像 ， 这 个 图 像 被 11x11x3 的 卷 积 核 进行 卷 积 运 
算 ， 卷 积 核对 原始 图 像 的 每 次 卷 积 都 生成 一 个 新 的 像素 。 卷 积 核 沿 原始 图 像 的 x 轴 方 向 和 ?y 48877 I] 
移动 ， 移 动 的 步 长 是 4 个 像素 。 因 此 ， 卷 积 核 在 移动 的 过 程 中 会 生成 (227-11) 二 4+1=55 个 像素 ， 行 
和 列 的 55x55 个 像素 形成 对 原始 图 像 卷 积 之 后 的 像素 层 。 总 计 有 96 个 卷 积 核 ， 会 生成 55x55x96 
个 卷 积 后 的 像素 层 。96 个 卷 积 核 分 成 2 组 ， 每 组 AS 个 卷 积 核 ， 则 对 应 生成 2 组 55x55x48 的 卷 积 
后 的 像素 层 数据 。 这 些 像 素 层 经 过 相关 处 理 后 生成 激活 像素 层 ， 尺 寸 仍 为 2 组 55x55x48 的 像素 层 
数据 。 

这 些 像 素 层 经 过 池 化 运算 处 理 〈 池 化 运算 的 尺度 为 3x3， 运 算 的 步 长 为 2) ， 则 池 化 后 图 像 的 
尺寸 为 (55-3) 二 2+1=27。 即 池 化 后 像素 的 规模 为 27x27x96; 然后 经 过 归 一 化 处 理 ， 归 一 化 运算 的 尺 
度 为 5x5; 第 一 卷 积 层 运算 结束 后 形成 的 像素 层 的 规模 为 27x27x96。 分 别 对 应 96 个 卷 积 核 所 运算 
形成 。 这 96 层 像 素 层 分 为 2 组 ， 每 组 48 个 像素 层 ， 每 组 在 一 个 独立 的 GPU 上 进行 运算 。 
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反 回 传播 时 , 每 个 卷 积 核对 应 一 个 偏差 值 , 即 第 一 层 的 96 个 卷 积 核对 应 上 层 输入 的 96 个 偏差 
值 。 

(2) 第 二 层 输入 数据 为 第 一 层 输出 的 27x27x96 的 像素 层 ， 为 便于 后 续 处 理 ， 每 幅 像素 层 的 
左右 两 边 和 上 下 两 边 都 要 填充 2 个 像素 ; 27x27x96 的 像素 数据 分 成 27x27x48 的 两 组 像素 数据 ,两 
组 数据 分 别 在 两 个 不 同 的 GPU 中 进行 运算 。 每 组 像素 数据 被 5x5x48 的 卷 积 核 进行 卷 积 运算 ， 郑 
积 核对 每 组 数据 的 每 次 卷 积 都 生成 一 个 新 的 像素 。 卷 积 核 沿 原始 图 像 的 x 轴 方 向 和 ? 轴 方 向 移动 ， 
移动 的 步 长 是 1 个 像素 。 因 此 ， 卷 积 核 在 移动 的 过 程 中 会 生成 (27-5+2x2)/1+1=27 个 像素 〈27 个 像 
ARE 5， 正 好 是 22， 加 上 上 上 下、 左右 各 填充 的 2 个 像素 ， 即 生成 26 个 像素 ， 再 加 上 被 减 去 的 5 
也 对 应 生成 一 个 像素 ) 。 行 和 列 的 27x27 个 像素 形成 对 原始 图 像 卷 积 之 后 的 像素 层 。 共 有 256 个 
5x5x48 卷 积 核 ， 这 256 个 卷 积 核 分 成 两 组 ， 每 组 针对 一 个 GPU 中 的 27x27x48 的 像素 进行 卷 积 运 
算 ， 会 生成 两 组 27x27x128 个 卷 积 后 的 像素 层 。 这 些 像 素 层 经 过 相关 处 理 后 生成 激活 像素 层 ， 尺 
寸 仍 为 两 组 27x27x128 的 像素 层 。 

这 些 像 素 层 经 过 池 化 运算 的 处 理 〈 池 化 运算 的 尺度 为 3x3， 运 算 的 步 长 为 2) ， 则 池 化 后 图 像 
的 尺寸 为 (57-3) 二 2+1=13, 即 池 化 后 像素 的 规模 为 2 组 13x13x128 的 像素 层 ; 然后 经 过 归 一 化 处 理 ， 
归 一 化 运算 的 尺度 为 Sx5; 第 二 卷 积 层 运算 结束 后 形成 的 像素 层 的 规模 为 2 组 13x13x128 的 像素 层 ， 
分 别 对 应 2 组 128 个 卷 积 核 运 算 形 成 。 每 组 在 一 个 GPU 上 进行 运算 ， 即 共 256 个 卷 积 核 ， 共 2 个 
GPU 进行 运算 。 

反问 传播 时 ， 每 个 卷 积 核对 应 一 个 偏差 值 ， 即 第 一 层 的 96 个 卷 积 核对 应 上 层 输入 的 256 个 偏 
差 值 。 

(3) 第 三 层 输 入 数据 为 第 二 层 输出 的 2 组 13x13x128 的 像素 层 ， 为 便于 后 续 处 理 ， 每 幅 像 素 
层 的 左右 两 边 和 上 下 两 边 都 要 填充 1 个 像素 ，2 组 像素 层 数 据 都 被 送 至 2 个 不 同 的 GPU 中 进行 运 
算 。 每 个 GPU 中 都 有 192 个 卷 积 核 ， 每 个 卷 积 核 的 尺寸 是 3x3x256。 因 此 ， 每 个 GPU 中 的 卷 积 核 
都 能 对 2 组 13x13x128 的 像素 层 的 所 有 数据 进行 卷 积 运算 。 卷 积 核对 每 组 数据 的 每 次 卷 积 都 生成 
一 个 新 的 像素 。 卷 积 核 沿 像素 层 数据 的 x 轴 方 向 和 ?y 轴 方 向 移动 ， 移 动 的 步 长 是 1 个 像素 。 因 此 ， 
运算 后 的 卷 积 核 的 尺寸 为 (13-3+1x2) 二 1+1=13 C13 个 像素 减 去 3， 正 好 是 10， 加 上 上 上 下、 左右 各 填 
充 的 1 个 像素 ， 即 生成 12 个 像素 ， 再 加 上 被 减 去 的 3 也 对 应 生成 一 个 像素 ) ， 每 个 GPU 中 共 
13x13x192 个 卷 积 核 。2 个 GPU 中 共 13x13x384 个 卷 积 后 的 像素 层 。 同 样 ， 这 些 像素 层 经 过 处 理 
后 ， 生 成 激活 像素 层 ， 尺 寸 仍 为 2 组 13x13x192 像素 层 ， 共 13x13x384 个 像素 层 。 

(4) 第 四 层 输 入 数据 为 第 三 层 输 出 的 2 组 13x13x192 的 像素 层 ， 为 便于 后 续 处 理 ， 每 幅 像素 
层 的 左右 两 边 和 上 下 两 边 都 要 填充 1 个 像素 ，2 组 像素 层 数据 都 被 送 至 2 个 不 同 的 GPU 中 进行 运 
算 。 每 个 GPU 中 都 有 192 个 卷 积 核 ， 每 个 卷 积 核 的 尺寸 是 3x3x192。 因 此 ， 每 个 GPU 中 的 卷 积 核 
能 对 1 组 13x13x192 的 像素 层 的 数据 进行 卷 积 运算 。 卷 积 核对 每 组 数据 的 每 次 卷 积 都 生成 一 个 新 
的 像素 。 卷 积 核 沿 像素 层 数据 的 xx 轴 方 向 和 ?y 轴 方 回 和 移动， 移动 的 步 长 是 1 个 像素 。 因 此 ， 运 算 后 
的 卷 积 核 的 尺寸 为 (13-3+1x2) 二 1+1=13 C13 个 像素 减 去 3， 正 好 是 10， 加 上 上 下 、 左 右 各 填充 的 1 
个 像素 ， 即 生成 12 个 像素 ， 再 加 上 被 减 去 的 3 也 对 应 生成 一 个 像素 ) ， 每 个 GPU 中 共 13x13x192 
个 卷 积 核 。2 个 GPU 中 共 13x13x384 个 卷 积 后 的 像素 层 。 同 样 ， 这 些 像 素 层 经 过 处 理 后 生成 激活 
像素 层 ， 尺 寸 仍 为 2 组 13x13x192 像素 层 ， 共 13x13x384 个 像素 层 。 
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(5) 第 五 层 输入 数据 为 第 四 层 输出 的 2 组 13x13x192 的 像素 层 ， 为 便于 后 续 处 理 ， 每 幅 像素 
层 的 左右 两 边 和 上 下 两 边 都 要 填充 1 个 像素 ; 2 组 像素 层 数据 都 被 送 至 2 个 不 同 的 GPU 中 进行 运 
算 。 每 个 GPU 中 都 有 128 个 卷 积 核 ， 每 个 卷 积 核 的 尺寸 是 3x3x192。 因 此 ， 每 个 GPU 中 的 卷 积 核 
能 对 1 组 13x13x192 的 像素 层 的 数据 进行 卷 积 运算 。 卷 积 核 对 每 组 数据 的 每 次 卷 积 都 生成 一 个 新 
的 像素 。 卷 积 核 沿 像素 层 数据 的 xx 轴 方 向 和 ?y 轴 方 向 移动 ， 移 动 的 步 长 是 1 个 像素 。 因 此 ， 运 算 后 
的 卷 积 核 的 尺寸 为 (13-3+1x2) 二 1+1=13 (13 个 像素 减 去 3， 正 好 是 10， 加 上 上 下 、 左 右 各 填充 的 1 
个 像素 ， 即 生成 12 个 像素 ， 再 加 上 被 减 去 的 3 也 对 应 生成 一 个 像素 ) ， 每 个 GPU 中 共 13x13x128 
个 卷 积 核 .2 个 GPU 中 共 13x13x256 个 卷 积 后 的 像素 层 。 这 些 像素 层 经 过 处 理 后 生成 激活 像素 层 ， 
尺寸 仍 为 2 组 13x13x128 像素 层 ， 共 13x13x256 个 像素 层 。 

2 组 13x13x128 像素 层 分 别 在 2 个 不 同 GPU 中 进行 池 化 运算 处 理 。 池 化 运算 的 尺度 为 3x3， 
运算 的 步 长 为 2, 池 化 后 图 像 的 尺寸 为 (13-3) 二 2+1=6, 即 池 化 后 像素 的 规模 为 两 组 6x6x128 的 像素 
层 数 据 ， 共 6x6x256 个 像素 层 数据 。 

(6) 第 六 层 输入 数据 的 尺寸 是 6x6x256， 采 用 6x6x256 尺寸 的 过 滤器 对 第 六 层 的 输入 数据 进 
行 卷 积 运算 ; 每 个 6x6x256 尺寸 的 过 滤器 对 第 六 层 的 输入 数据 进行 卷 积 运算 生成 一 个 运算 结果 ， 
通过 一 个 神经 元 输出 这 个 运算 结果 ;共有 4096 个 6x6x256 尺寸 的 过 滤器 对 输入 数据 进行 卷 积 运算 ， 
通过 4096 个 神经 元 输出 运算 结果 ; 这 4096 个 运算 结果 通过 ReLU 激活 函数 生成 4096 个 值 ， 并 通 
过 drop 运算 后 输出 4096 个 本 层 的 输出 结果 值 。 

由 于 第 六 层 的 运算 过 程 中 采用 的 过 滤器 的 尺寸 (6x6x256) 与 待 处 理 的 特征 图 (Feature Map) 的 
尺寸 (6x6x256) 相 同 ， 即 过 滤器 中 的 每 个 系数 只 与 特征 图 中 的 一 个 像素 值 相 乘 ; 而 其 他 卷 积 层 中 ， 
每 个 过 滤器 的 系数 都 会 与 多 个 特征 图 中 像素 值 相 乘 ; 因此 ， 将 第 六 层 称 为 全 连接 层 。 

第 五 层 输出 的 6x6x256 规模 的 像素 层 数 据 与 第 六 层 的 4096 个 神经 元 进行 全 连接 ， 然 后 经 由 
relu6 进行 处 理 后 生成 4096 个 数据 ， 再 经 过 dropout6 处 理 后 输出 4096 个 数据 。 

(7) 第 七 层 输出 的 4096 个 数据 与 第 八 层 的 1000 个 神经 元 进行 全 连接 ， 经 过 训练 后 输出 被 训 
练 的 数值 。 

3. AlexNet 网 络 优势 解析 

前 面 讲 了 一 下 AlexNet 的 基本 网 络 结构 ， 大 家 肯定 会 对 其 中 的 一 些 点 产生 疑问 ， 比 如 LRN、 
ReLU、dropout， 相 信 接 触 过 深度 学 习 的 读者 都 听 说 或 者 了 解 过 这 些 。 这 里 将 详细 讲述 这 些 东 西 为 
什么 能 提高 最 终 网 络 的 性 能 。 

(1) ReLU 非 线 性 

大 家 可 能 都 知道 ,在 浅 层 的 神经 网 络 中 ， 引 入 非 线性 操作 (也 就 是 通常 说 的 激活 函数 ) 能 够 提 
高 神经 网 络 的 泛 化 能 力 ， 进 而 使 得 神经 网 络 更 具有 和 鲁 棒 性 。 但 是 在 深层 网 络 中 ， 如 果 我 们 选择 tanh 
函数 作为 激活 函数 ， 其 实 会 使 得 模型 的 计算 量 增加 、 训 练 速度 变 慢 。Hinton 等 在 论文 中 引入 ReLU 

(Rectified Linear Units) 来 作为 激活 函数 : 
Relu(x) = max(0, x) 


实际 上 ， 基 于 ReLU 的 深度 卷 积 网 络 比 基 于 tanh 的 网 络 在 训练 上 会 提高 数 倍 。 图 5-24 给 出 了 
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一 个 基于 CIFAR-10 的 四 层 卷 积 网 络 在 tanh 和 ReLU 达到 25% 的 训练 错误 率 (Training Error) 时 的 
迭代 次 数 。 


Training error rate 


图 5-24 tanh 和 ReLU 达到 2$% 的 训练 错误 率 (Training Error) 随 着 迭代 次 数 的 变化 情况 


在 图 5-24 中 ， 实 线 、 虚 线 分 别 代表 的 是 ReLU、tanh 的 训练 错误 率 的 情况 ， 可 以 发 现 ，ReLU 
EE tanh 收敛 更 快 。 

之 所 以 会 出 现 图 5-24 中 的 现象 , 我 们 可 以 从 以 下 两 个 方面 的 原因 去 思考 : 其 一 ,简单 的 max 计算 
可 以 大 幅度 减少 计算 量 ， 进 而 提升 训练 速度 (论文 中 提 到 过 ) ; 其 二 ， 在 ReLU 中 ， 梯 度 是 被 直接 传 
递 的 ， 而 我 们 知道 在 深度 网 络 中 梯度 是 存在 衰减 的 ， 而 ReLU 却 能 够 最 大 限度 地 维持 梯度 ， 使 得 梯度 
衰减 的 趋势 得 以 减 绥 。 此外, 由 于 反 回 传播 过 程 中 没有 了 梯度 换算 的 操作 , 因此 可 以 加 快 训 练 的 进程 。 

(2) 局 部 啊 应 归 一 化 (Local Response Normalization, LRU) 

在 这 里 ， 我 们 为 了 不 让 某 一 些 核 (Kernel) 的 权重 值 (Weight) 变 得 很 大 ， 就 需要 对 不 同 的 核 
进行 归 一 化 (Normalization) 处理。 之 所 以 这 样 ， 是 因为 : 如 果 某 一 个 核 的 权重 值 变 得 很 大 ， 那 么 
它 的 权重 值 只 要 发 生 略 微 的 变化 就 会 对 网 络 性 能 产生 很 大 的 影响 , 这 一 点 可 以 结合 神经 学 中 的 侧 抑 
制 〈Lateral Inhibition) 概念 来 理解 ， 即 活跃 的 神经 元 会 对 与 它 相 邻 的 神经 元 产生 抑制 作用 。 


i 
Oy y) 


be» T — om OP 
( + a yn) feo 


( j =max(0,i-*) 
KF, XX BÜjk. n. a. BEME “ASO , HERRER (Validation Set) 来 决定 。 


(3) Dropout 

这 是 一 种 正则 化 手段 ， 能 够 比较 有 效 地 防止 神经 网 络 的 过 拟 合 COverfitting) ， 通 过 随机 地 将 
部 分 神经 元 的 输出 置 零 来 实现 。 

相对 于 一 般 〈 如 线性 模型 ) 使 用 正则 的 方法 来 防止 模型 过 拟 合 ， 在 神经 网 络 中 Dropout 通过 修 
改 神经 网 络 本 喘 的 结构 来 实现 。 在 全 连接 层 ， 将 菜 些 隐藏 层 神经 元 的 输出 置 为 0， 对 于 每 个 神经 元 
输出 置 为 0 的 概率 是 0.5，Dropout 的 神经 元 不 会 对 前 回 传 播 操 作 造 成 影响 ， 也 退出 了 反 回 传导 权 
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重 值 修正 。 这样 在 提高 训练 效率 同时 也 防止 了 过 拟 合 现象 的 发 生 。 论文 中 梯度 神经 网 络 在 前 面 的 两 
个 全 连接 层 进 行 了 Dropout， 有 效 地 阻止 了 过 拟 合 现象 。 


(4) 数据 扩充 (Data Augmentation) 

在 深度 学 习 中 , 当 数 据 量 不 够 大 的 时 候 , 采 取 的 方法 之 一 便 是 数据 扩充 (其 他 还 有 Regularization、 
Dropout 等 ) : 通过 平移 、 翻 转 、 加 噪声 等 方法 从 已 有 数据 中 创造 出 一 批 “ 新 ”的 数据 。 通 过 数据 
扩充 ， 我们 可 以 防止 模型 出 现 过 拟 合 现 象 ， 进 而 提升 模型 的 性 能 。 在 Hinton 和 Alex Krizhevsky 的 
论文 中 ， 是 从 256x256 中 随机 提出 227x227 的 patches (论文 中 是 224x224) ， 还 有 就 是 通过 PCA 
来 扩充 数据 集 。 这 样 就 很 有 效 地 扩充 了 数据 集 ， 其 实 还 有 更 多 的 方法 ， 可 以 根据 我 们 的 业务 场景 去 
选择 使 用 ， 比 如 进行 基本 的 图 像 转换 《如 增加 /减少 亮度 、 采 用 一 些 滤 光 算法 等 ) ， 这 是 一 种 特别 
有 效 的 手段 ， 尤 其 是 当 数 据 量 不 够 大 的 时 候 。 


5.8.2 VGGNet 
1. VGGNet 简 述 


VGGNet 是 于 2014 年 由 牛津 大 学 计算 机 视觉 组 CVisual Geometry Group) 和 Google DeepMind 
公司 研究 员 一 起 研发 的 新 型 深度 卷 积 神经 网 络 。VGGNet 探索 了 卷 积 神经 网 络 的 深度 与 其 性 能 之 
间 的 关系 ， 通 过 反复 堆 攻 3x3 的 小 型 卷 积 核 和 2x2 的 最 大 池 化 层 ，VGGNet 成 功 地 构筑 了 16-19 
层 深 的 卷 积 神经 网 络 。VGGNet 证 明了 增加 网 络 的 深度 能 够 在 一 定 程度 上 影响 网 络 最 终 的 性 能 ， 
相 比 之 前 的 网 络 结构 ， 使 错误 率 大 幅 下 降 ， 并 取得 了 ISVRC2014 比赛 分 类 项 目的 第 二 名 【第 一 
名 是 GoogLeNet， 也 是 同年 提出 的 ) 和 定位 项 目的 第 一 名 。 同 时 VGGNet 的 拓展 性 很 强 ， 迁 移 到 
其 他 图 片 数据 上 的 泛 化 性 也 非常 好 。VGGNet 的 结构 非常 简洁 ， 整 个 网 络 都 使 用 了 同样 大 小 的 卷 
积 核 尺 寸 (3x3) 和 最 大 池 化 尺寸 (2x2) 。 目 前 ，VGGNet 依然 经 常 被 用 来 提取 图 像 特征 。 VGGNet 
训练 后 的 模型 参数 在 其 官方 网 站 已 经 开源 了 ,可 用 来 在 特定 领域 的 图 像 分 类 任务 上 进行 再 训练 ( 相 
当 于 提供 了 非常 好 的 初始 化 权重 值 〉》， 因 此 被 广泛 采用 。 


2. VGGNet 结构 详解 


在 VGGNet 论文 《Very Deep Convolutional Networks for Large-Scale Image Recognition》【〔 基 于 
深层 卷 积 网 络 的 大 规模 图 像 识 别 ) 中， 作者 全 部 使 用 3x3 的 卷 积 核 和 2x2 的 池 化 核 ， 借 助 不 断 加 
深 的 网 络 结构 来 提高 模型 性 能 。 图 5-25 给 出 了 VGGNet 中 各 级 别 的 网 络 结构 示意 图 。 论 文 作者 分 
HEH T A. A-LRN. B. C. D. EX 6 种 网 络 结构 进行 测试 ， 这 6 种 网 络 结构 均 相似 ， 都 是 由 5 
层 卷 积 层 、3 层 全 连接 层 组 成 ， 其 中 的 区 别 在 于 每 个 卷 积 层 的 子 层 数 量 不 同 ， 从 A 至 EE 依次 增加 

( 子 层 数量 从 1 到 4) ， 总 的 网 络 深度 从 11 层 到 19 层 〈 添 加 的 层 以 粗 体 显 示 ) ， 图 中 的 卷 积 层 参 
数 表示 为 “conv 感受 野 大 小 -通道 数 ”， 例 如 con3-128， 表 示 使 用 3x3 的 卷 积 核 ， 通 道 数 为 128。 
为 了 简洁 起 见 ， 在 表格 中 不 显示 ReLU 激活 功能 。 
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VGG16 VGG19 


conv 3-64 conv 3-64 conv 3-64 conv 3-64 conv 3-64 conv 3-64 
LRN conv3-64 conv3-64 conv3-64 conv3-64 
conv3-128 | conv3-128 | conv3-128 | conv3-1?8 | conv3-128 | conv3-128 

conv3-128 | conv3-128 | conv3-12$8 | conv3-128 


i 4 


conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 | convi-25€ 
conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 | conv3-256 
conv1-256 | conv3-256 | conv3-256 

conv3-256 


: NC 


conv3-512 | conv3-512 | conv3-51 conv3-51 conv3-51 conv3-51 
conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 
conv1-512 | conv3-512 | conv3-512 
conv3-512 


conv3-51? | conv3-51? | conv3-51 conv3-51 conv 3-51 conv 3-51 
conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 | conv3-512 
conv1-512 | conv3-512 | com 3-512 
conv3-512 
09€ 


LL 


FC 


5-25 VGGNet 各 级 别 的 网 络 参数 结构 示意 图 


图 5-26 给 出 了 每 一 级 别 的 参数 个 数 ， 从 第 11 层 的 网 络 一 直到 第 19 层 的 网 络 都 有 详尽 的 性 能 
测试 。 虽 然 从 A 到 下 每 一 级 网 络 都 逐渐 加 深 ,但 是 网 络 的 参数 个 数 并 没有 增加 很 多 ， 这 是 因为 参 
数 个 数 大 部 分 都 消耗 在 最 后 3 个 全 连接 层 上 了 。 前 面 的 卷 积 部 分 虽然 很 深 , 但 是 消失 的 参数 个 数 并 
不 大 ， 而 训练 比较 耗 时 的 部 分 仍然 是 卷 积 部 分 (该 部 分 计算 量 较 大 ) 。 这 其 中 的 网 络 结构 D 和 网 
络 结构 EE 就 是 我 们 常 说 的 VGG16 和 VGG19。 

Network — .— .— | AALRN| B | C | D| E| 
Number of parameters | — 133 | 133 | 134 | 138 | 144- 
5-26 VGGNet 各 级 别 网 络 参数 个 数 CRI: BAD 


接着 , 我 们 以 VGG16 (网 络 结构 DO 为 例 介 绍 其 各 层 的 处 理 过 程 ， 见 图 5-27, A. A-LRN. B. 

C. E 等 其 他 网 络 结构 的 处 理 过 程 与 网 络 结构 D 类 似 。 其 处 理 过 程 如 下 (请 对 比 图 5-25、 图 5-26 
和 图 5-27 的 数字 变化 ， 有 助 于 理解 VGG16 的 处 理 过 程 ) : 

COD 输入 224x224x3 的 图 片 ， 经 64 个 3x3 的 卷 积 核 做 两 次 卷 积 TReLU， 卷 积 后 的 尺寸 变 为 
224x224x64。 

(2) 做 最 大 池 化 (Max Pooling) ， 池 化 单元 尺寸 为 2x2 〈 效 果 为 图 像 尺 寸 减 半 ) ， 池 化 后 的 
尺寸 变 为 112x112x64。 

(3) 经 128 个 3x3 的 卷 积 核 做 两 次 卷 积 TReLU， 尺 寸 变 为 112x112x128。 

(4D. 做 2x2 的 最 大 池 人 化， 尺寸 变 为 56x56x128。 
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(5) 经 256 个 3x3 的 卷 积 核 做 三 次 卷 积 TReLU， 尺 寸 变 为 56x56x256。 
C6) 做 2x2 的 最 大 池 人 化， 尺寸 变 为 28x28x256。 

CI) 经 512 个 3x3 的 卷 积 核 做 三 次 卷 积 FTReLU， 尺 寸 变 为 28x28x512。 
(8) 做 2x2 的 最 大 池 化 ， 尺 寸 变 为 14x14x512。 

(9) 经 512 个 3x3 的 卷 积 核 做 三 次 卷 积 TReLU， 尺 寸 变 为 14x14x512。 
(100 做 2x2 的 最 大 池 化 ， 尺 寸 变 为 7x7x512。 

(11) 与 两 层 1x1x4096、 一 层 1x1x1000 进行 全 连接 +ReLU ( 共 三 层 ) 。 
(12) 通过 softmax 输出 1000 个 预测 结果 。 


7x7x512 


x E ls 2 
a 1x1x4096 1x1x1000 
ye ,* yé ye 3 


convolution+ReLU 
max pooling 
fully connected 十 ReLU 


vuu 


softmax 


输入 上 一 一 一 一 卷 积 层 一 一 一 全 连接 十 输出 
5-27 VGG16【〔 网 络 结构 D〉 各 层 处 理 过 程 示 意图 
图 5-28 给 出 了 VGGNet 使 用 Multi-Scale 训练 时 得 到 的 结果 , 可 以 发 现 网 络 结构 D 和 下 均 能 
达到 7.5% 的 错误 率 。 在 对 比 VGGNet 各 级 别 网 络 后 得 出 以 下 3 个 观点 : 


(D LRN 层 作 用 不 大 。 
(2) 越 深 层 的 网 络 效 果 越 佳 。 
(3) 2x2 的 卷 积 也 是 有 效 的 ， 但 没有 3x3 的 卷 积 好 ， 即 大 一 些 的 卷 积 核能 够 学 习 更 大 的 空间 


ConvNet config. (Iable 凡 top-1 val. error (96) | top-5 val. error (96) 


| 96 
| 
[ 256 22425678 | 266 | 86 
[38  |35238446 | 265 | 86 
[[B6:51| | 256384517 | 248 | 75 
[38 [35238446 | — 267 | 86 - 
[56:512] | 256384512 | — 248 | 75 


5-28 VGGNet 各 级 别 在 使 用 Multi-Scale 训练 时 的 top-5 错误 率 
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5.8.3 Google Inception Net 


Google Inception Net( 有 了 时 也 称 GoogLeNet) 和 VGGNet 是 2014 年 ImageNet 挑 战 赛 (ILSVRC14) 
的 贡 楚 ， 分 别 获 得 了 第 一 名 和 第 二 名 ， 这 两 类 模型 结构 的 共同 特点 是 神经 网 络 层次 更 深 了 。 其 中 
VGGNet 继承 了 LeNet 以 及 AlexNet 的 一 些 框架 结构 , 而 GoogLeNet 则 做 了 更 加 大 胆 的 网 络 结构 答 
试 。2014 年 这 届 比 赛 中 的 Inception Net 一 般 被 称 为 Inception V1， 其 中 一 个 很 重要 的 特点 是 控制 了 
计算 量 和 参数 量 的 同时 取得 了 非常 出 色 的 分 类 性 能 : top-5 EREN 6.67%, 不 到 AlexNet 的 一 半 。 
Google Inception Net 其 实 是 一 个 大 的 家 族 ， 成 员 有 : 


(1) 2014 年 9 H, it X: (Going Deeper with Convolutions》 提 出 的 Inception V1 (top-5 错误 率 
为 6.67%) . 

(2) 2015 年 2 H, iC X: (Batch Normalization: Accelerating Deep Network Training by Reducing 
Internal Covariate Shift) FHK] Inception V2 (top-5 错误 率 为 4.8%) . 

(3) 2015 年 12 H, i&€ X- (Rethinking the Inception Architecture for Computer Vision》 提 出 的 
Inception V3 (top-5 错误 率 3.5%) 。 

(4)2016 年 2 H, i& X (Unception-v4, Inception-ResNet and the Impact of Residual Connections on 
Learning》 提 出 的 Inception V4 (top-5 错误 率 3.0896) 。 


1. Inception V1 

Inception V1 虽然 深度 只 有 22 层 ， 但 大 小 却 比 AlexNet 和 VGGNet 小 很 多 ，GoogleNet 参数 为 
500 万 个 ， 仅 为 AlexNet 参数 个 数 的 1/12 倍 ， 是 VGGNet 参数 个 数 的 14， 所 以 在 内 存 或 计算 资源 
有 限 的 时 候 , GoogleNet 是 比较 好 的 选择 ; 从 模型 的 效果 来 看 , GoogleNet 的 性 能 也 是 更 佳 的 选择 。 
Inception V1 模型 的 参数 量 少 但 效果 好 的 原因 除了 模型 层 数 更 深 、 表 达能 力 更 强 外 ， 还 有 如 下 两 方 
和 面 的 原因 : 


COD 放弃 了 最 后 的 全 连接 层 ， 代 之 以 全 局 平均 池 化 层 (将 图 片 尺寸 变 为 1x1) 。 由 于 全 连接 
层 几乎 占据 了 AlexNet 或 VGGNet 中 90% 的 参数 量 ， 且 这 会 引发 过 拟 合 现象 。 采 用 全 局 平均 池 化 
层 代 替 全 连接 层 的 做 法 借鉴 了 Network In Network (NN) 论文 的 思想 ， 这 样 模型 训练 起 来 速度 更 
快 且 也 减轻 了 过 拟 合 的 压力 。 

(2) Inception V1 中 精心 设计 的 Inception 模块 (Inception Module) 提升 了 参数 的 利用 效率 ， 
有 具体 的 网 络 结构 见 图 5-29。 这 一 部 分 借鉴 了 NIN 的 思想 ,可 以 理解 为 mception 模块 本 身 就 如 同 大 
网 络 中 的 一 个 小 网 络 ， 其 结构 可 以 反复 登 加 在 一 起 形成 大 网 络 。 但 Inception V1 比 NN 更 具有 优 
势 的 地 方 是 它 增 加 了 分 支 网 络 ，NIN 则 主要 是 级 联 的 卷 积 层 和 MLPConv 层 。 
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(a) Inception module, naive version (b) Inception module with dimension reductions 


5-29 Inception V1 网 络 结构 示意 图 (图 片 来 自 论文 (Going Deeper with Convolutions) ) 
接 下 来 ， 我 们 给 出 Inception V1 模型 的 特点 ， 上 有 具体 如 下 : 


(OD 卷 积 层 共 有 的 一 个 功能 ， 可 以 实现 通道 方向 的 降 维 和 增 维 ， 至 于 是 降 还 是 增 ， 取 诀 于 卷 
积 层 的 通道 数 (过 滤器 个 数 ) ， 在 Inception V1 中 1x1 卷 积 用 于 降 维 ,减少 权重 值 大 小 和 特征 图 维 
度 。 

(2) 1x1 卷 积 特有 的 功能 ， 由 于 1x1 卷 积 只 有 一 个 参数 ， 相 当 于 对 原始 特征 图 做 了 一 个 尺度 
变换 (scale) 操作 ， 并 且 这 个 尺度 变换 还 是 训练 学 出 来 的 ， 无 疑 会 对 识别 精度 有 提升 。 

(3) 增加 了 网 络 的 深度 。 

(4) 增加 了 网 络 的 宽度 。 

(5) 同时 使 用 了 1x1. 3x3. 5x5 的 卷 积 ， 增 加 了 网 络 对 尺度 的 适应 性 。 

2. Inception V2 

Inception V2 学 习 了 VGGNet, 使 用 两 个 3x3 的 卷 积 取代 了 5x5 的 大 卷 积 (用 于 降低 参数 量 量 
减少 过 拟 合 ) ， 并 提出 了 著名 的 Batch Normalization (BN) 方法 ， 其 网 络 结构 如 图 5-30 所 示 。BN 
是 一 个 非常 有 效 的 正则 化 方法 , 可 以 让 大 型 卷 积 网 络 的 训练 速度 加 快 很 多 倍 , 同时 收敛 后 的 分 类 准 
确 率 也 可 以 得 到 很 大 的 提升 。Inception V2 的 优势 在 于 以 下 两 点 : 


Fiter Conca 


Inception V1 Inception V2 
5-30 ”Inception V1 改进 到 V2 的 网 络 结构 示意 图 
CD 加 入 了 BN 层 , 减少 了 内 部 协 方差 偏 移 〈InternalCovariate Shift， 内 部 神经 元 的 数据 分 布 
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发 生变 化 ) ， 使 每 一 层 的 输出 都 规范 化 到 一 个 N(0，1) 的 高 斯 分 布 ( 即 正 态 分 布 ) ， 从 而 增加 了 模 
型 的 鲁 棒 性 ， 能 以 更 大 的 学 习 速 率 训练 ， 收 伍 更 快 ， 初 始 化 操作 更 加 随意 ， 同 时 作为 一 种 正则 化 技 
术 ， 可 以 减少 dropout 层 的 使 用 。 
(2) 用 2 个 连续 的 3x3 conv 蔡 代 Inception 模块 中 的 5x5， 从 而 实现 网 络 深度 的 增加 ， 网 络 整 
体 深 度 增 加 了 9 层 ， 缺 点 就 是 增加 了 25% 的 权重 值 和 30% 的 计算 量 。 
3. Inception V3 
Inception V3 网 络 主要 是 在 V2 的 基础 上 提出 了 卷 积 分 解 (Factorization) ， 如 图 5-31 所 示 。 其 
主要 特点 有 以 下 两 点 : 
CD 将 7x7 分 解 成 两 个 一 维 的 卷 积 (1x7,7x1) ，3x3 也 是 一 样 (1x3,3x1) ， 这 样 的 好 处 是 
既 可 以 加 速 计 算 (多 余 的 计算 能 力 可 以 用 来 增加 网 络 深度 ) ， 又 可 以 将 1 个 卷 积 分 解 成 2 个 卷 积 ， 
使 得 网 络 深度 进一步 增加 , 从 而 增加 了 网 络 的 非 线 性 , 更 加 精细 地 设计 了 35x35/17x17/8x8 的 模块 。 
(2) 增加 网 络 宽 度 ， 网 络 输入 从 224x224 变 为 了 299x299。 


5-31 将 一 个 3x3 卷 积 分 解 成 1x3 卷 积 和 31 卷 积 


4. Inception V4 

Inception V4 相 比 于 V3 主要 是 结合 了 微软 的 ResNet， 得 到 了 Inception-ResNet-v1、 
Inception-ResNet-v2. Inception-v4 网 络 。 关 于 ResNet 我 们 将 在 5.8.4 节 单 独 说 明 。 

ResNet 的 残 兰 结 构 如 图 5-32 所 示 。 


| Relu activation n 


1x1 Conv 


| Relu activation 


5-32 ResNet 的 残 差 结构 示意 图 
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Inception 与 ResNet 结合 后 的 网 络 结构 如 图 5-33 所 示 。 


Relu activation 


1x1 Conv 
(256 Linear) 
3x3 Conv 
(32) 


3x3 Conv 
(32) 


1x1 Conv 
(32) 


3x3 Conv 
(32) 


1x1 Conv 
(32) 


Relu activation 
5-33 Inception 5 ResNet 结合 后 的 网 络 结构 示意 图 
现在 , 我 们 可 以 看 一 下 Inception VA 的 优点 , 具体 如 下 : 


(1) 将 Inception 模块 和 ResNet 结合 ， 提 出 了 Inception-ResNet-vl, Inception-ResNet-v2, 4} 
得 训练 加 速 ， 收 敛 更 快 ， 精 度 更 高 。 

(2) 设计 了 更 深 的 Inception-v4 版 本 ， 效 果 和 Inception-ResNet-v2 相当 。 

(3) 网 络 输入 大 小 和 V3 一 样 ， 还 是 299x299, 


5.8.4 ResNet 网 络 


1. Bj 


ResNet( Residual Neural Network, 残 差 神经 网 络 ) 是 由 微软 研究 院 的 Kaiming He, Xiangyu Zhang. 
Shaoqing Ren 和 Jian Sun 四 名 华人 于 2015 年 在 其 论文 《Deep Residual Learning for Image Recognition) 
中 提出 的 ， 通过 使 用 ResNet Unit 成 功 训 练 出 了 152 层 深 的 神经 网 络 ， 并 在 ILSVRC 2015 比赛 中 取 
得 了 冠军 ， 在 tops 上 的 错误 率 为 3.57%， 同 时 参数 个 数 比 VGGNet 低 ， 效 果 却 非常 突出 。ResNet 
的 结构 可 以 极 快 地 加 速 超 深 神经 网 络 的 训练 , 模型 准确 率 的 提升 也 非常 显著 。 正 是 因为 ResNet“ 简 
单 与 实用 ”并 存 的 魅力 ， 所 以 后 来 很 多 方法 都 是 建立 在 ResNet50 或 者 ResNet101 基础 上 完成 的 ， 
检测 、 人 分割、 识别 等 领域 都 纷纷 使 用 了 ResNet 网 络 ，Alpha Zero 也 使 用 了 ResNet， 可 见 ResNet 
确实 很 受 欢 迎 。 

2. ResNet 网 络 结构 


ResNet 主要 借鉴 了 高 速 路 网 络 (Highway Network) 的 思想 ， 即 允许 原始 输入 信息 直接 传输 到 
后 面 的 网 络 层 中 (我 们 可 以 理解 为 ， 网络 中 增加 了 捷径 连接 或 者 直 连 通道 或 者 说 跨 层 连接 等 ), 但 
实际 上 ResNet 对 高 速 路 神经 网 络 进行 了 改进 〈 残 差 项 中 原本 是 带 有 权重 值 的 ， 而 ResNet 则 采用 恒 
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等 映射 代替 之 ) 。 图 5-34 给 出 了 ResNet 网 络 两 层 残 差 学 习 单 元 的 示意 图 。 


weight layer 


F(x) identity 
x 
H (x ) =F (x ) +x E shortcut connections 


relu ( 捷径 连接 ) 
5-34 ResNet 网 络 两 层 残 差 学 习 单 元 


我 们 知道 ,在 传统 的 卷 积 网 络 或 者 全 连接 网 络 当 中 , 信息 传递 时 或 多 或 少 会 存在 信息 丢失 、 损 
耗 等 现实 问题 , 甚至 引起 梯度 消失 或 者 梯度 爆炸 的 严重 问题 ,导致 我 们 无 法 对 深度 神经 网 络 进行 下 
常 训练 。 现 在 我 们 认识 到 ，ResNet 可 以 通过 其 捷径 连接 将 输入 信息 直接 传 到 输出 端 ， 最 大 程度 上 
保证 了 信息 的 完整 性 ,整个 神经 网 络 只 需要 学 习 输入 端 和 输出 端 存在 差异 的 部 分 即 可 ， 从 而 大 大 降 
低 了 模型 的 学 习 难 度 。 

论文 《Deep Residual Learning for Image Recognition》 中 提出 了 ResNet 模块 的 两 种 结构 (如 图 
5-35 所 示 ) ， 其 实 真正 在 使 用 的 ResNet 模块 并 不 是 这 么 单一 。 这 两 种 结构 分 别针 对 ResNet34( 左 
图 浅 层 网 络 ) 和 ResNet50/101/152( 右 图 深层 网 络 ) ， 整 个 结构 被 称 为 一 个 “building block”。 其 
中 右 图 又 被 称 为 “bottleneck design”， 目 的 就 是 为 了 降低 参数 的 数目 。 我 们 面 对 的 网 络 层 数 很 多 
时 ， 在 神经 网 络 中 靠近 输出 端的 维 数 就 会 很 大 ， 此 时 如 果 选 择 左 侧 浅 层 网 络 则 会 导致 计算 量 极 大 ， 
而 选择 右 侧 深层 网 络 结构 进行 计算 就 会 好 很 多 , 这 里 将 会 先 用 一 个 1x1 卷 积 进行 降 维 , 然后 使 用 一 
个 3x3 卷 积 层 ， 最 后 再 使 用 一 个 1x1 卷 积 层 恢 复 到 之 前 的 维度 。 


256-d 


1x1, 256 


图 5-35 二 层 和 三 层 的 ResNet 学 习 模 块 
5.9 ”利用 CNN 对 MNIST 数据 集 进行 图 片 分 类 


本 节 我 们 分 析 一 个 在 讲解 卷 积 神经 网 络 时 经 常 使 用 到 的 案例 ， 即 利用 CNN 对 MNIST 数据 集 
进行 图 片 分 类 。 
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5.9.1 数据 样本 


数据 样本 还 是 计算 机 视觉 社区 中 众所周知 的 数据 集 : MNIST 数据 集 。 MNIST 数据 集 是 从 0 
到 9 的 手写 数字 的 标记 图 像 的 数据 库 。 数 据 集 包 含 三 个 不 同 的 子 数据 集 : 训练 、 验 证 和 测试 集 。 下 
面 我 们 将 在 训练 集 上 做 训练 ， 再 从 测试 集中 随机 选取 一 些 正确 和 错误 分 类 的 样本 ， 以 评估 CNN 的 
学 习 能 力 。 


5.9.2 ”实现 CNN 


本 部 分 的 完整 代码 位 于 ch5 文件 夹 的 S_ enn image classification mnist.ipynb "P. 
首先 ， 我 们 将 定义 TensorFlow 占 位 符 ， 用 于 为 输入 《图 像 )》 和 输出 《标签 ) 服务 ， 然 后 定义 
一 个 全 局 步 数 ， 它 被 用 于 计算 衰减 的 学 习 速 率 : 


EWA (EBB) Mih RÆ) 占 位 符 

tf inputs = tf.placeholder(shape-[batch size, image size, image size, 

n channels],dtype-tf.float32,name-'tf mnist images') 

tf labels = tf.placeholder(shape-[batch size, n classes], 
dtype-tf.float32,name-'tf mnist labels') 


# 用 于 计算 衰减 学 习 速率 的 全 局 步 数 


global step = tf.Variable(0,trainable-False) 
接 下 来 ， 我 们 将 定义 模型 和 其 他 变量 ， 它 们 是 卷 积 权重 值 和 偏差 以 及 完全 连接 的 权重 值 。 
# 初始 化 各 个 变量 


layer weights = {} 
layer biases = {} 
for layer id in cnn layer ids: 
if 'pool' not in layer id: 
layer weights[layer id] -tf.Variable(initial value- 
tf.random normal(shape-layer hyperparameters[layer id]['weight shape'],stddev- 


0.02,dtype-tf.float32),name-layer id*' weights') 


layer biases[layer id] - tf.Variable(initial value-tf.random normal 
(shape-[layer hyperparameters[layer id]['weight shape']|[-111], 
stddev-0.01,dtype-tf.float32), name-layer id-*t' bias') 


下 一 步 定 义 logit 计算 。Logits 是 应 用 softmax 激活 之 前 输出 层 的 值 。 为 此 ， 我 们 将 会 遍历 每 一 
层 。 
对 于 每 个 卷 积 层 ， 将 使 用 以 下 方法 对 输入 进行 卷 积 运算 : 


h = tf.nn.conv2d(h,layer weights[layer id],layer hyperparameters[layer id] 
['stride'],layer hyperparameters[layer id]['padding']) * layer biases[layer id] 
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这 里 ， 对 于 第 一 个 卷 积 ， 输 入 h 到 t£nn.conv2d TER 8:18 7j t£ inputs. JE, t£nn.conv2d(input, 
filter, strides, padding) 按 以 下 顺序 采用 有 关 参 数值 。 
我 们 还 将 调用 非 线 性 激活 函数 ReLU: 


h = tf.nn.relu(h) 
然后 ， 对 于 每 个 池 化 层 ， 使 用 以 下 方法 对 输入 进行 子 采 样 : 


h = tf.nn.max pool(h, layer hyperparameters[layer id]['kernel shape'], 
layer hyperparameters[layer id]['stride'],layer hyperparameters[layer id] 


['padding']) 

t£nn.max pool (input, ksize, strides, padding) 函数 按 顺序 采用 以 下 参数 : 

@ input 用 于 子 采 样 ， 形 式 为 [batch size, input height, input width, input depth]. 

€  ksize: 最 大 池 化 运算 的 每 个 维度 上 的 内 核 大 小 , 形式 为 [batch kernel size, height kernel size, 
width kernel size, depth kernel size]. 

€ strides: 输入 每 个 维度 的 步 幅 ， 形 式 为 [batch stride, height stride, width stride, depth stride]. 

€ padding: 可 以 是 'SAME' X'VALID'. 

接 下 来 ， 对 于 第 一 个 完全 连接 的 层 ， 我 们 重 塑 输出 : 

h = tf.reshape(h,[batch size,-1]1) 

然后 我 们 将 执行 权重 值 乘法 和 偏差 加 法 ， 进 行 非 线性 激活 : 


h = tf.matmul(h,layer weights[layer id]) + layer biases[layer id] 
h = tf.nn.relu(h) 


这 时 计算 logits: 

h = tf.matmul(h,layer weights[layer id]) + layer biases[layer id] 
T TE h 的 最 后 一 个 值 〈 最 后 一 层 的 输出 ) 分 配给 tf logits: 

tf logits = h 

接 下 来 ， 我 们 将 定义 softmax 交叉 燃 损 失 ， 这 是 有 监督 分 类 任务 的 常用 损失 函数 : 


tf loss = tf.nn.softmax cross entropy with logits v2(logits-tf logits, 


labels-tf labels) 
我 们 还 需要 定义 一 个 学 习 率 ， 每 当 验 证 准确 度 没 有 增加 预定 数量 的 epoch (A epoch 2&5 
历 一 所 整个 数据 集 ， 即 训练 一 表 ) 时 ， 我 们 将 学 习 率 降 低 0.5 倍 。 这 被 称 为 学 习 率 育 减 : 


tf learning rate -tf.train.exponential decay(learning rate-0.001, 


global step-global step,decay rate-0.5,decay steps-l,staircase-True) 


接着 ， 我 们 将 使 用 RMSPropOptimizer 优化 堪 定 义 损 失 最 小 化 ， 有 人 发 现 它 优 于 传统 的 随机 梯 
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度 下 降 (SGD) ， 尤 其 是 在 计算 机 视 党 应 用 中 : 


tf loss minimize = tf.train.RMSPropOptimizer(learning rate-tf learning rate, 


momentum-0.9).minimize(tf loss) 


最 后 , 通过 比较 预测 的 分 类 标签 和 实际 分 类 标签 来 计算 预测 的 准确 率 , 我 们 将 定义 以 下 预测 计 
算 图 数 : 


tf predictions = tf.nn.softmax(tf logits) 


目前 , 我 们 已 经 完成 了 第 一 个 CNN 功能 的 创建 工作 。 熟 悉 了 使 用 相关 函数 来 实现 CNN 结构 、 
定义 损失 、 最 大 限度 地 减少 损失 并 将 预测 变 为 未 可 见 数据 。 我 们 使 用 人 简单 的 CNN 来 得 看 它 是 否 可 
以 实现 对 手写 图 像 进行 分 类 的 学 习 。 此 外 ， 通 过 CNN， 我 们 能 够 达到 98% 以 上 的 准确 度 。 接 下 来 
我 们 将 分 析 CNN 产生 的 一 些 结果 ， 将 看 到 为 什么 CNN 无 法 正确 识别 条 些 图 像 。 


593 分 析 CNN 产生 的 预测 结果 


在 这 里 ， 我 们 可 以 从 测试 集中 随机 选取 一 些 正 确 和 错误 分 类 的 样本 ， 以 评估 CNN 的 学 习 能 
( 见 图 5-360 。 我 们 可 以 看 到 ， 对 于 正确 分 类 的 实例 ，CNN 对 输出 非常 有 信心 ， 这 可 以 被 视 为 学 
习 算 法 的 良好 属性 。 然 而 ， 当 我 们 评估 错误 分 类 的 例子 时 ,我们 可 以 看 到 它们 实际 上 是 困难 的 ， 其 
至 人 类 也 可 能 会 弄 错 它 们 (例如 ， 第 二 行 从 左 侧 起 第 3 个 图 像 )， 这 么 来 看 ， 面 对 不 正确 的 样本 ， 
CNN 通常 不 像 分 类 正确 的 样本 那么 日 信 。 此 外 ， 尽 管 出 现 这 些 不 足 ， 但 正确 的 标签 通常 不 会 被 完 
全 忽略 ， 并 且 根 据 预 测 值 给 出 一 些 识 别 ， 例 如 ， 图 中 第 一 行 的 图 像 ， 正 确 的 标签 基本 不 会 被 弄 错 。 


正确 分 类 的 样本 


Zole on 


正确 分 类 样本 的 Softmax 预 测 


(a) MNIST 正确 分 类 实例 


错误 分 类 的 样本 


D EBBEIDDE 


错误 分 类 样本 的 Softmax 预 尖 


' ' 
| : | 
' .4 ' " s 959 " T ' 


(b) MNIST 错误 分 类 实例 
5-36 MNIST 正确 分 类 (a) 和 错误 分 类 (b) 的 实例 
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5.10 利用 CNN 进行 句子 分 类 


虽然 CNN 主要 用 于 计算 机 视觉 任务 , 但 在 NLP 领域 也 经 常 被 使 用 到 , 它 对 处 理 句 子 分 类 任务 
是 很 有 效 的 。 

在 句子 分 类 任务 中 ， 把 给 定 句 子 归 类 为 一 类 。 我 们 将 使 用 一 个 问题 数据 库 ， 其 中 每 个 问题 都 用 
问题 的 内 容 来 做 标记 (标签 ，。 例 如 ，“ 谁 是 秦 始 蛙 ? ”将 是 一 个 问题 ， 它 的 标签 将 是 “人 ”。 关 
于 问题 句子 分 类 的 数据 集 ， 国 外 有 些 现 成 的 数据 集 。 例 如 ，http://cogcomp.org/Data/QA/QC/ 上 提供 
的 句子 分 类 数据 集 ， 我 们 可 以 找到 1000 个 训练 句子 及 其 各 目的 标签 和 500 个 测试 句子 。 

这 里 ， 我 们 将 参考 大 家 所 熟知 的 Yoon Kim 于 2014 年 发 表 的 论文 《Convolutional Neural 
Networks for Sentence Classification) , RHEE CNN 在 NLP 任务 中 的 工作 价值 。 然 而 ， 使 用 CNN 
进行 句子 分 类 与 我 们 讨论 过 的 MNIST 示例 有 些 不 同 ， 因 为 现在 有 些 操 作 〈 例 如 ， 卷 积 和 池 化 ) 是 
发 生 在 一 维 而 不 是 二 维 层面 上 。 此 外 ， 这 里 的 池 化 运算 也 将 与 正常 的 池 化 运算 有 一 定 的 差异 , 在 后 
面 就 会 看 到 。 相 关 完 整 代码 ， 可 查看 ch5 文件 夹 下 的 5 enn sentence classification.ipynb 文件 。 


5.10.1 CNN 结构 部 分 


现在 我 们 讨论 一 下 用 于 句子 分 类 的 CNN 的 技术 细节 。 首 先 ， 我 们 将 讨论 如 何 把 数据 或 句子 转 
换 为 CNN 可 以 轻松 处 理 的 首选 格式 。 接 下 来 ， 我 们 讨论 卷 积 和 池 化 运算 如 何 适用 于 句子 分 类 ， 最 
后 ， 我 们 再 讨论 所 有 这 些 组 件 是 如 何 连接 的 。 

1. 数据 转换 

假设 一 个 由 p 词 所 组 成 的 句子 。 首先, 我 们 用 一 些 特殊 的 词 填充 句子 (如 果 句 子 的 长 度 是 小 于 
n 的 ) ， 将 句子 长 度 设置 为 n 个 词 ， 其 中 三 p。 接 下 来 , 我 们 将 通过 大 小 为 的 向 量 来 表示 句子 中 
的 每 个 词 ， 其 中 该 向 量 可 以 用 One-Hot 编码 表示 ， 也 可 以 使 用 Skip-Gram、CBOW 或 GloVe 等 模 
型 来 表示 。 然 后 ， 一 组 大 小 为 b 的 句子 可 以 用 bpxnxk 和 矩阵 表示 。 

下 面 来 看 一 个 例子 : 


€ Bob and Mary are friends. 
€ Bob plays soccer. 
€ Mary likes to sing in the choir. 


在 这 个 例子 中 , 第 三 个 句子 的 单词 最 多 , 所 以 让 我 们 设置 n 77, 这 是 第 三 个 句子 中 的 单词 数 。 
接 下 来 ， 让 我 们 看 一 下 每 个 单词 的 One-Hot 编码 表示 情况 。 由 于 整体 情况 下 这 里 有 13 个 不 同 的 单 
词 ， 因 此 我 们 得 到 如 下 表示 : 

Bob: 1,0,0,0,0,0,0,0,0,0,0,0,0 


and: 0,1,0,0,0,0,0,0,0,0,0,0,0 


585: 卷 积 神经 网 络 与 句子 分 类 | 155 


而 且 ， 出 于 同样 的 原因 ，K= 13。 通 过 这 种 表示 ， 我 们 可 以 将 三 个 句子 表示 为 大 小 为 3X7X13 
的 三 维 矩 阵 ， 如 图 5-37 所 示 。 


图 5-37 TEETAR 


2. 卷 积 运算 部 分 

如 果 我 们 忽略 批量 大 小 ， 也 就 是 说 ， 如 果 假 设 一 次 只 处 理 一 个 句子 ,那么 我 们 的 数据 将 是 一 个 
nxk EE, HEP n 是 填充 后 每 个 句子 的 单词 数 、Kk 是 一 个 词 向 量 的 维度 。 在 上 面 的 例子 中 ， 这 个 数 
据 是 7x13 矩阵 。 

现在 我 们 把 卷 积 权重 值 矩 阵 定 义 为 mxk 的 大 小 ， 其 中 m 是 一 维 卷 积 运算 的 过 滤器 的 大 小 。 通 
过 把 大 小 为 nxk 的 输入 x 与 大 小 为 mxk WAEHERE 于 做 卷 积 运算 ， 我 们 将 产生 大 小 为 1xn BS h 


输出 ， 如 下 所 示 : 
k 
> WOD * G*j-1D 


l=1 


hg) = 


M: 


Il 
P 


j 
XE, wipt W HEG DER, RIKER x E h 的 大 小 为 1xn。 此 外 ， 我 们 将 
给 出 此 运算 更 简单 的 定义 ， 如 下 所 示 : 
h=W*x+b 


XX Hi, EN TERZE CHEAD) ， 我 们 将 添加 一 个 额外 的 标量 偏差 5。 图 5-38 给 出 了 这 个 
运算 的 说 明 。 

然后 ， 为 了 学 习 丰 富 的 特征 集合 ,我 们 提供 了 具有 不 同 卷 积 过 滤器 大 小 的 并 行 层 。 每 个 卷 积 层 
输出 一 个 大 小 为 1xn 的 隐藏 问 量 ， 我 们 将 连接 这 些 输出 以 形成 下 一 个 大 小 为 qxn 的 层 的 输入 ， 其 
中 gq 是 我 们 使 用 的 并 行 层 数 。4 越 大 ， 模 型 的 性 能 越 好 。 

卷 积 的 值 可 以 用 以 下 方式 理解 。 想 一 下 电影 评级 学 习 问 题 ( 有 两 个 分 类 , 正面 的 还 是 负面 的 )， 
我 们 有 以 下 句子 : 


e Ilike the movie, not too bad 
€ did not like the movie, bad 
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(nxk) : Convolution : 
Outputofa : 
Single Layer : 


Poe 


A Single Convolution Layer 


图 5-38 ”句子 分 类 的 卷 积 运算 示意 图 


现在 想象 一 个 大 小 为 5 的 卷 积 窗口 。 让 我 们 根据 卷 积 窗口 的 移动 来 装 箱 单词 (把 这 些 词 存储 起 
来 ) 。 

句子 “Ilike the movie, not too bad” 的 情况 如 下 所 示 : 

[I, like, the, movie, ','] 

[like, the, movie, ',', not] 

[the, movie, ',', not, too] 


[movie, ',', not, too, bad] 


人 句子 “Idid not like the movie, bad” 的 情况 如 下 所 示 : 


[I, did, not, like, the] 
[did, not ,like, the, movie] 
[not, like, the, movie, ','] 


[like, the, movie, ',', bad] 


对 于 第 一 句 话 ， 如 下 所 示 的 窗口 表示 的 评级 为 正面 的 : 


[I, like, the, movie, ','] 


[movie, ',', not, too, bad] 


然而 ， 对 于 第 二 句 话 ， 以 下 窗口 给 出 的 评级 是 负面 的 : 
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[did, not, like, the, movie] 


由 于 保留 了 空间 性 ， 因 此 我 们 能 够 看 到 这 样 的 模式 有 助 于 对 评级 进行 分 类 。 例如 ， 如果 使 用 诸 
如 词 袋 (bag-ofwords) 之 类 的 技术 来 计算 丢失 空间 信息 的 句子 表示 ， 那 么 得 到 的 句子 表示 将 是 非 
常 相 似 的 。 卷 积 运算 在 保留 句子 的 空间 信息 方面 起 着 非常 重要 的 作用 。 

通过 具有 不 同 过 滤器 大 小 的 gq 个 不 同 层 , 神经 网 络 学 习 提取 了 具有 不 同 大 小 短语 的 评级 ， 从 而 
改善 了 模型 的 性 能 。 


5.10.2” 池 化 运算 


池 化 运算 被 设计 为 对 先前 讨论 的 并 行 卷 积 层 产生 的 输出 进行 二 次 采样 , 它 是 通过 以 下 方式 来 实 
现 的 。 

假设 最 后 一 层 有 的 输出 大 小 为 qxn。 随 着 时 间 的 推移 , 该 池 化 运算 将 产生 大 小 为 gxl 的 输出 h', 
有 具体 计算 如 下 : 

hä) = max(h®) 

HEP, 1Eixq. 

ZE, hO = WO «x 4 bJ&rH*8 i TEREFE, WOERTZERREHEA. m 
言 之 ， 随 时 间 的 变化 ， 池 化 运算 通过 连接 每 个 卷 积 层 的 最 大 元 素来 创建 回 量 。 我 们 将 在 图 5-39 中 
说 明 此 运算 。 
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图 5-39 用 于 句子 分 类 的 池 化 运算 随 着 时 间 变化 的 示意 图 
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注意 : 在 图 5-39 中 ， 我 们 用 较 暗 的 颜色 来 表示 并 行 卷 积 层 的 最 大 值 。 
最 终 我 们 通过 组 合 这 些 运算 得 到 了 图 5-40 所 示 的 架构 。 
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5-40 ”用 于 句子 分 类 的 CNN 架构 示意 图 


510.3 利用 CNN 实现 句子 分 类 


首先 ， 我 们 将 定义 输入 和 和 输 出。 输入 批量 句子 ， 其 中 的 词 由 One-Hot 编码 的 词 回 量 表 示 。 我 们 
知道 词 回 量 会 提供 比 One-Hot 编码 表示 更 好 的 性 能 ， 但 是 ， 为 简单 起 见 ， 我 们 这 里 使 用 One-Hot 
编码 表示 : 


sent inputs = 
tf.placeholder(shape-[batch size,sent length,vocabulary size],dtype- 
tf.float32,name-'sentence inputs') 
sent labels = tf.placeholder(shape-[batch size,num classes], 


dtype-tf.float32,name-'sentence labels') 


这 里 , 我 们 定义 了 三 个 不 同 的 一 维 卷 积 层 ， 其 中 三 个 不 同 的 过 滤器 的 大 小 分 别 为 3、5 $817 GE 
filter_sizes 中 作为 列表 提供 ) ， 以 及 它们 各 目的 偏差 : 


wl — tf.Variable(tf.truncated normal([filter sizes[0],vocabulary size,l], 
stddev-0.02,dtype-tf.float32),name-'weights 1') 

bl — tf.Variable(tf.random uniform([1],0,0.01,dtype-tf.float32), 
name-'bias 1') 


w2 = tf.Variable(tf.truncated normal([filter sizes[l1],vocabulary size,l], 
stddev-0.02,dtype-tf.float32),name-'weights 2') 
b2 = tf.Variable(tf.random uniform([1],0,0.01,dtype-tf.float32), 


name-'bias 2') 


w3 — tf.Variable(tf.truncated normal([filter sizes[2],vocabulary size,l], 
stddev-0.02,dtype- tf.float32),name-'weights 3') 
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b3 = tf.Variable(tf.random uniform([1],0,0.01,dtype-tf.float32), 


name-'bias 3') 


现在 我 们 计算 出 这 三 个 输出 , 每 个 输出 属于 一 个 卷 积 层 ， 正 如 我 们 刚刚 定义 的 那样 。 我 们 可 以 
使 用 TensorFlow 中 提供 的 t£nn.conv1d 函数 来 轻松 完成 计算 。 我 们 使 用 步 幅 1 (stride=1) TIER TE 
来 确保 输出 与 输入 具有 相同 的 大 小 : 


hl 1 = tf.nn.relu(tf.nn.convild(sent inputs,wl,stride-1,padding-'SAME') + bl) 
hl 2 = tf.nn.relu(tf.nn.convld(sent inputs,w2,stride-1,padding-'SAME') + b2) 
hl 3 = tf.nn.relu(tf.nn.convld(sent inputs,w3,stride-1,padding-'SAME') + b3) 


为 了 计算 随时 间 变 化 过 程 中 的 最 大 池 化 ， 我 们 需要 编写 基本 函数 来 在 TensorFlow 中 执行 相关 
运算 ， 因 为 TensorFlow 中 没有 执行 此 运算 的 本 地 函数 。 而 实际 上 ， 编 写 这 些 函 数 不 采 烦 。 
首先 ， 我 们 计算 每 个 卷 积 层 中 产生 的 最 大 值 。 这 会 为 每 个 图 层 生 成 一 个 标量 : 


h2 1 = tf.reduce max(hl 1l,axis-1) 
h2 2 — tf.reduce max(hl 2,axis-1) 
h2 3 — tf.reduce max(hl 3,axis-1) 


然后 ， 我 们 连接 轴 1 (宽度 ) 上 产生 的 输出 ， 以 产生 大 小 为 batchsizexg 的 输出 : 

h2 = tf.concat([h2 1,h2 2,h2 3],axis-1) 

接 下 来 ， 我 们 定义 完全 连接 的 层 ， 这 些 层 将 完全 连接 到 由 池 化 层 随 时 间 而 产生 的 输出 
batchsizexq。 在 这 种 情况 下 ， 只 有 一 个 完全 连接 的 层 ， 这 也 将 是 我 们 的 输出 层 : 


w fcl = tf.Variable(tf.truncated normal([len(filter sizes),num classes], 
stddev-0.5,dtype-tf.float32),name-'weights fulcon 1') 
b fcl = tf.Variable(tf.random uniform([num classes],0,0.01,dtype- 
tf.float32),name-'bias fulcon 1') 


此 处 定义 的 函数 将 生成 随后 用 于 计算 神经 网 络 损失 的 logits: 
logits = tf.matmul(h2,w fcl) + b fcl 

通过 将 softmax 激活 应 用 于 logits， 我 们 将 获得 相关 的 预测 : 
predictions = tf.argmax(tf.nn.softmax(logits),axis-1) 
Jt, dX pp Xu BUS SUR A: 


loss = tf.reduce mean(tf.nn.softmax cross entropy with logits v2 


(labels-sent labels,logits-logits)) 
为 了 优化 网 络 ， 我 们 使 用 名 为 MomentumOptimizer 的 TensorFlow 内 置 优化 器 : 


optimizer = tf.train.MomentumOptimizer(learning 


rate=0.01,momentum=0.9).minimize (loss) 
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我 们 可 以 执行 这 些 先前 定义 的 操作 ， 以 便 优 化 CNN 并 评估 案例 中 给 出 的 测试 数据 ， 模 型 在 该 
句子 分 类 任务 中 给 出 了 接近 90% (500 个 测试 句子 ) 的 测试 准确 率 〈 在 49 个 Epoch 上 ， 训练 数 据 
的 平均 损失 : 0.28， 测 试 数据 的 平均 准确 率 : 88.333， 详 见 代码 运行 结果 ) 。 

到 这 里 ， 关 于 使 用 CNN 进行 句子 分 类 的 讲解 就 结束 了 。 我 们 首先 讨论 了 如 何 将 一 维 卷 积 运算 
与 被 称 为 pooling over time 的 特殊 池 化 运算 相 结 合 ， 以 实现 基于 CNN 架构 的 句子 分 类 器 。 最 后 ， 
我 们 讨论 了 如 何 使 用 TensorFlow 来 实现 这 样 的 CNN， 我 们 看 到 它 在 句子 分 类 中 表现 良好 。 

了 解 刚 才 解决 问题 的 思路 ,有 助 于 我 们 在 现实 世界 中 把 这 种 解决 思路 利用 起 来 。 假 设 我 们 有 一 
份 关 于 罗马 历史 的 大 型 文档 ， 并 且 我 们 想 要 在 不 阅读 整 篇 文档 的 情况 下 认识 Julius Caesar。 在 这 种 
情况 下 , 我 们 刚刚 实现 的 句子 分 类 器 便 可 以 作为 一 个 工具 来 总 结 只 对 应 于 一 个 人 的 句子 , 不 必 阅 读 
整个 文档 。 

句子 分 类 也 可 用 于 许多 其 他 任务 , 一 个 常见 的 用 途 是 将 电影 评论 分 类 为 正面 的 或 负面 的 , 这 对 
于 自动 计算 电影 评级 很 有 用 。 句子 分 类 的 另 一 个 重要 应 用 是 在 医学 领域 , 我 们 可 以 从 包含 大 量 文本 
的 大 型 文档 中 提取 出 临床 有 用 的 句子 。 


5.11 总结 


LN 一 


在 本 章 中 ， 我 们 首先 说 明了 CNN 的 来 龙 去 脉 ， 并 对 其 五 个 层级 结构 〈 输 入 层 、 卷 积 运算 层 、 
激励 层 、 池 化 层 、 全 连接 层 ) 和 四 个 基本 运算 单元 ( 卷 积 运算 、 池 化 运算 、 全 连接 运算 和 识别 运算 ) 
有 了 认识 。 

其 次 ， 我 们 结合 CNN 网 络 的 四 个 基本 运算 单元 对 于 CNN 的 五 个 层级 结构 进行 逐一 解析 ， 对 
其 工作 原理 进行 了 详细 刘 析 ， 并 讨论 了 几 个 与 这 些 运 算 符 相 关 的 超 参 数 ， 例 如 过 滤器 大 小 、 步 幅 和 
填充 。 为 了 更 好 地 解释 CNN 中 的 各 个 组 件 ， 我 们 尽 可 能 详细 地 给 出 了 对 应 的 图 形 化 展示 。 

接着 ， 我 们 给 出 了 几 种 常见 经 典 卷 积 神经 网 络 : AlexNet、VGGNet、Google Inception Net 和 
ResNet， 并 逐一 从 网 络 思 想 、 结 构 、 特 性 亮点 等 方面 做 了 详尽 解读 ， 使 我 们 对 近 些 年 来 听 说 过 的 经 
典 卷 积 网 络 的 发 展 路 径 有 了 一 个 完整 的 认识 。 

最 后 ， 我 们 为 了 将 上 述 解 析 的 模型 思想 真正 落 到 代码 层面 ， 给 出 了 两 个 案例 : 利用 CNN 对 
MNIST 数据 集 进 行 图 片 分 类 和 利用 CNN 对 句子 进行 分 类 。 在 对 MNIST 数据 集 进行 图 片 分 类 中 ， 
我 们 还 进行 了 一 些 分 析 ， 以 了 解 为 什么 CNN 无 法 正确 识别 某 些 图 像 。 而 在 利用 CNN 对 句子 进行 
分 类 中 ,我 们 讨论 了 可 用 于 对 句子 进行 分 类 的 CNN 架构 ,并 在 实际 的 句子 分 类 任务 上 进行 了 测试 。 

在 下 一 章 中 ,我 们 将 继续 讨论 用 于 许多 NLP 任务 最 流行 的 神经 网 络 之 一 :循环 神经 网 络 (RNN )。 


循环 神经 网 络 


在 本 章 中 ， 我 们 将 介绍 循环 神经 网 络 CRecurrent Neural Network; RNN) ， 它 是 一 类 旨 在 处 理 
输入 序列 数据 的 神经 网 络 , 专门 用 于 处 理 序 列 x 1 ,x2?,x3,...,x7 这 样 的 神经 网 络 。 这些 输入 可 以 是 文 
本 、 语 音 、 时 间 序 列 , 序列 中 元 素 的 出 现 取 决 于 其 之 前 出 现 元 素 的 任何 其 他 内 容 。RNN 非常 灵活 ， 
就 像 卷 积 神经 网 络 能 够 很 轻松 地 扩展 到 具有 很 大 宽度 和 高 度 的 图 像 且 可 以 处 理 大 小 可 变 的 图 像 ， 
RNN 能 够 扩展 到 更 长 的 序列 且 多 数 能 够 处 理 可 变 长 度 的 序列 。 正 因为 如 此 ，RNN 已 被 广泛 用 于 解 
决 诸 如 语音 识别 、 文 本 生成 、 情 感 分 析 、 图 像 字 幕 提 取 和 机 器 翻译 等 问题 。 

HX, RNN 在 维护 着 一 个 状态 变量 ， 以 此 获取 序列 数据 中 存在 的 各 种 模式 ， 进 而 能 够 对 序列 
数据 建 模 。 传统 的 前 馈 神经 网 络 不 具有 这 种 能 力 , 除非 用 获取 序列 中 存在 的 重要 模式 的 特征 表示 来 
对 数据 进行 表示 。 然而,， 对 这 样 的 特征 表示 是 非常 困难 的 。 前 馈 网 络 对 序列 数据 进行 建 模 的 男 一 种 
方案 是 让 时 间 / 顺 序 中 的 每 个 位 置 具 有 单独 的 参数 集 , 但 是 这 样 一 来 将 大 大 增加 内 存 的 压力 。 所 以 ， 
这 里 我 们 就 需要 利用 到 二 十 世纪 八 十 年 代 机 器 学 习 和 统计 学 思想 的 优点 :在 模型 的 不 同 部 分 共享 参 
数 。 因 为 参数 共享 使 模型 能 够 扩展 到 不 同形 式 的 样本 且 可 以 泛 化 。 反之, 在 每 个 时 间 点 上 均 有 单独 
的 参数 ,这 不 仅 难以 做 到 泛 化 训练 时 未 曾 出 现 过 的 序列 长 度 , 而 且 不 能 在 时 间 上 共享 不 同 序列 长 度 
以 及 各 个 位 置 的 统计 强度 。 比 如 ， 这 里 有 一 个 固定 长 度 的 句子 ， 我 们 要 去 训练 它 ， 传 统 的 全 连接 前 馈 
网 络 会 给 每 个 输入 特征 单独 分 配 一 个 参数 ， 这 样 对 于 句子 中 每 个 位 置 的 所 有 语音 规则 均 需 要 学 习 ， 而 
RNN 由 于 在 多 个 时 间 步 长 内 能 够 共享 相同 的 权重 值 ， 因 此 不 必 对 句子 中 每 个 位 置 的 语言 规则 都 学 习 一 遍 。 

在 本 章 中 , 我 们 将 深入 探讨 RNN 的 细节 。 首先 , 我 们 将 通过 计算 图 及 其 循环 图 的 展开 的 计算 ， 
引出 循环 网 络 。 在 此 之 后 ， 我 们 将 通过 序列 数据 模型 引出 RNN 结构 的 简要 计算 ， 并 从 数学 层面 给 
出 详解 。 我们 还 将 深入 研究 相关 的 基础 方程 ,例如 RNN 的 输出 计算 和 参数 更 新 规则 ， 并 讨论 RNN 
应 用 的 几 种 变 体 : 一 对 一 、 一 对 多 、 多 对 一 和 多 对 多 的 RNN。 最 后 将 通过 一 个 案例 具体 介绍 使 用 
RNN 基于 训练 数据 集 来 生成 新 文本 ， 并 讨论 RNN 的 一 些 局 限 性 。 在 计算 和 评估 生成 的 文本 之 后 ， 
我 们 将 讨论 RNN 的 扩展 ， 称 为 RNN-CF， 与 常规 RNN 相 比 记忆 更 长 ， 最 后 通过 RNN-CF 给 出 案 
例 的 优化 ， 并 对 它 进行 解读 和 分 析 。 
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6.1 计算 图 及 其 展开 


计算 图 是 一 种 用 于 表达 和 评估 数学 表达 式 的 方式 , 被 定义 为 有 问 图 , ERST ARM CES 
算 。 例 如 ， 将 输入 、 参 数 映射 到 输出 和 损失 的 计算 等 。 这 里 我 们 结合 RNN 计算 得 到 的 重复 结构 进 


行 前 释 ， 这 些 重 复 结构 一 般 对 应 于 一 个 事件 链 。 下 面 给 出 动态 系统 框架 下 的 经 典 形 式 : 
St 一 f (S-n; 0) (6.1) 


显然 式 〈6.1) 是 循环 的 ， 对 于 有 限 的 1 而 言 ， 式 (6.1) 逐步 展开 最 终 会 得 到 不 涉及 循环 的 表 
达 形 式 。 因 此 ， 这 里 我 们 能 够 使 用 传统 的 有 回 无 环 计算 图 给 出 相关 表达 形式 ， 如 图 6-1 Pra. 


图 6-1 3X (6.1) 的 计算 图 


图 6-1 将 式 (6.1) 代表 的 经 典 动 态 系统 用 展开 的 计算 图 表示 出 来 。 每 个 节点 表示 在 某 个 时 刻 
1 的 状态 ， 并 且 函 数 f 将 1 处 的 状态 映射 到 :+1 处 的 状态 。 所 有 时 间 步 长 都 使 用 相同 的 参数 〈 用 于 
参数 化 了 的 相同 6 值 ) 。 

而 在 有 外 部 信号 进入 的 情况 下 ， 由 外 部 信号 x 驱动 的 动态 系统 表达 式 如 下 : 


St = f (S-1». Xe 0) (6.2) 


显然 当前 状态 涵盖 了 整个 过 去 的 序列 信息 。 
实际 上 , 涉及 循环 的 任何 函数 本 质 上 可 以 被 认为 是 一 种 循环 神经 网 络 , 且 多 数 循 环 神经 网 络 可 
以 由 式 〈6.2) 来 定义 隐藏 单 元 的 值 。 下 面 给 出 状态 变量 h 的 公式 ， 也 是 多 数 RNN 中 的 典型 公式 ， 
如 式 (6.32 所 示 : 
hi = f (ha-1, X69) (6.3) 


结合 式 〈6.3) ， 我 们 给 出 RNN 在 增加 外 部 信号 x 时 读 取 状 态 信息 h 并 进行 预测 的 示意 图 ， 如 
图 6-2 所 示 。 


6-2. RNN 在 增加 外 部 信号 x 时 读 取 状态 信息 h 并 进行 预测 的 示意 图 
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图 6-2 中 没有 输出 ， 此 循环 网 络 仅 处 理 来 自 输入 x 的 信息 ， 将 其 合并 到 经 过 时 间 问 前 传播 的 状 
© ]。 左 图 为 回路 原理 图 ， 黑 色 方 块 表示 单个 时 间 步 长 的 延迟 。 右 图 为 同一 网 络 被 展开 的 计算 图 ， 
其 中 每 个 节点 现在 与 一 个 特定 的 时 间 实 例 相 关联 。 

这 里 ， 图 6-2 左 图 回路 图 中 黑色 方块 代表 在 时 刻 上 状态 到 时 刻 ++ 1 状态 的 单个 时 刻 延 迟 中 的 
相互 作用 。 

我 们 发 现 ， 对 于 式 (6.3) 的 描述 可 以 有 两 种 方式 ， 一 种 是 左 图 代表 回路 原理 的 循环 图 ， 男 一 
种 是 右 图 代表 的 展开 计算 图 。 对 于 左 图 ， 网 络 给 出 了 实时 运算 回路 ， 当 前 状态 会 影响 其 未 来 状态 ; 
对 于 右 图 展开 的 计算 图 而 言 , 里 面 的 任意 一 个 组 件 均 有 多 个 不 同 的 变量 表达 式 , 一 个 时 间 步 长 一 个 
变量 , 表示 该 时 间 点 上 组 件 的 状态 情况 ,每 个 变量 为 计算 图 中 的 一 个 独立 节操 。 下 面 我 们 给 出 一 个 
函数 gt 来 代表 经 t 步 展开 后 的 循环 : 


ht = ge(Xe X(t-1y X(t-2} -- X2,X1) (6.4) 
7f (ha) Xt; 0) ( ( (6.5) 
结合 式 (6.4) 和 式 (6.5) ， 对 于 函数 g, 而 言 ， 它 能 够 将 所 有 之 前 的 序列 (xw,xXc_1y,…,XzX1) 作 


为 输入 以 生成 当前 状态 。 同 时 我 们 可 以 看 到 , 展开 后 的 循环 结构 允许 我 们 把 函数 gt 分 解 为 重复 应 用 
的 函数 J。 显 然 ， 展 开 过 程 会 市 来 以 下 好 处 : 

(1) 无 论 序 列 长 度 如 何 ， 训 练 好 的 模型 一 直 具 有 同样 的 输入 大 小 ， 这 是 由 于 它 指定 的 不 是 在 
可 变 长 度 的 历史 状态 上 运算 ， 而 是 由 一 种 状态 到 男 一 种 状态 的 转移 。 

(2) 在 每 个 时 间 步 长 我 们 可 以 使 用 相同 参数 的 相同 转移 函数 f。 

综 上 所 述 , 循环 图 和 展开 图 都 有 各 自 的 用 途 。 循 坏 图 很 简洁 ， 而 展开 图 可 以 清晰 地 描述 其 中 的 
计算 流程 , 还 可 以 借助 显 式 信息 流 的 流动 路 径 解 释 信 息 在 时 间 上 向 前 (计算 输出 和 损失 ) 和 向 后 ( 计 
算 梯 度 ) 的 作用 。 


62 RNN 解读 


6.2.1 厅 列 数据 模型 
在 现实 世界 中 , 我 们 能 够 接触 到 很 多 像 {X1, X2, Xa XT) Wo Yo ya yzr} 这 样 的 序列 式 数 据 ， 
并 且 这 些 序列 式 数 据 在 多 个 领域 均 有 相应 的 应 用 ， 比 如 : 
(D 在 日 然 语 言 处 理 中 ，Xxi 可 以 作为 第 一 个 词 ，x2 作 为 第 二 个 词 ， 后 面 以 此 类 推 。 
(2) 在 语音 处 理 中 ，X1,X2,X3… 是 每 帧 的 声音 信号 。 
(3) 在 时 间 序 列 问 题 中 ， 像 每 天 的 股票 价格 、 每 天 的 气温 等 。 
结合 6.1 节 的 内 容 ， 我 们 可 以 给 出 yx 和 y 的 函数 关系 ， 如 下 : 
hi = fa(ha-1, xc 8) (6.6) 
yc = fz(he; P) (6.7) 
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RITAK A> PIKER x 和 y 的 真实 模型 的 近似 值 ， 更 细 一 点 讲 ， 将 式 (6.6) . 6.7) 
扩展 如 下 : 


yc = he Re- 0);9) (6.8) 
假设 这 里 t4, HH 5X (6.8) nT Aya 73: 
Y4 = ffi(X4, ha; 0); p) (6.9) 


下 面 对 式 (6.9) 做 进一步 展开 , 我 们 可 以 得 到 最 终结 果 ( 为 了 表达 式 清 晰 起 见 , 这 里 省 略 6 和 gq ): 
ya = faa Ot, RA f2 FiK2, f2 03 Q6 h9)))))))). 6.10) 
我 们 将 式 (6.10) 在 图 中 进行 展示 ， 如 图 6-3 所 示 。 


G) Q) Q2 () 


E Di 
图 6-3 从 和 之 间 的 关系 图 ， 随 着 上 的 增加 ， 后 面 继 续 扩 展 


这 里 ， 一 个 箭头 表示 对 相应 同 量 做 一 次 类 似 FWXY + b) 5) 383 
对 于 任何 给 定 的 时 间 步 长 t， 我 们 一 般 以 图 6-4 来 概括 。 


j 
© 
6-4 一 个 RNN 结构 的 单 步 计算 示意 图 


尽管 如 此 ， 对 于 hatia KEER h. EE ha 实际 上 是 一 个 时 间 步 长 之 
前 的 he。 所 以 ， 我 们 可 以 使 用 循环 连接 来 表示 hi 的 运算 情况 ， 如 图 6-5 所 示 。 
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6-5 利用 循环 连接 对 RNN 结构 的 单 步 计 算 示意 图 
注 : 这 里 的 黑色 框 与 6.1 节 中 的 含义 一 样 ， 即 代表 单个 时 间 步 长 的 延迟 


在 图 6-5 中 ， 我 们 可 以 看 到 ， 这 里 概括 了 序列 fi Xz Xa -Ar EI ENE FI Qa, yo ya, -Yr HI 
方程 链 。 更 进一步 讲 ， 通过 hte_i)、 hi、 Xt 以 得 到 任意 的 yi， 这 也 是 RNN 的 核心 思想 所 在 。 


6.2[2 ”数学 层面 简要 解读 RNN 


现在 让 我 们 继续 研究 一 下 RNN 到 底 是 什么 ， 并 为 RNN 中 的 计算 定义 数学 方程 式 。 让 我 们 从 
派生 的 两 个 函数 开始 ， 作 为 从 关 学 习 六 的 函数 逼近 器 : 
hi 三 万 (xb hay; 8) 
yt = falh 9) 
正如 我 们 所 看 到 的 那样 ， 神 经 网 络 由 一 组 权重 值 、 偏 差 和 非 线 性 激活 函数 所 组 成 , 我 们 可 以 改 
写 前 面 的 关系 如 下 : 
h, = tanh(U y, + Wh.) 


iX HB, tanh()Jé tanh 激活 函数 ，U 是 大 小 为 mxd HANEKE, Tr] m 是 隐藏 单元 的 数量 ， 
d 是 输入 的 维 数 。 此 外 , 球 是 大 小 为 mxm WREE, CEE TA Ah an 到 的 循环 连接 。 上 面 
的 yt 关系 式 可 由 以 下 等 式 给 出 : 


y, = softmax(Vh,) 


这 里 ， 严 是 大 小 为 cxm WAEHERE, c 是 输出 的 维 数 〈 可 以 是 输出 类 的 数量 ) 。 这 样 一 来 ， 
我 们 就 可 以 给 出 这 些 权 重 值 形成 RNN 的 路 径 图 ， 如 图 6-6 所 示 。 

综 上 所 述 , 我 们 已 经 疼 释 了 通过 计算 节点 图 来 表示 一 个 RNN, 并 大 致 学 习 了 RNN 背后 的 数学 
迎 辑 关系 。 下 一 步 ， 我 们 将 对 RNN 的 权重 值 进行 优化 (或 者 训练 )， 以 便 更 好 地 学 习 序 列 数据 样 
A. 
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图 6-6 RNN 的 结构 示意 图 ， 边 表示 计算 


6.3 ”通过 时 间 的 反问 传播 算法 


对 于 训练 RNN， 使 用 一 种 特殊 形式 的 反 回 传播 ， 称 为 通过 时 间 的 反问 传播 (Back Propagation 
Through Time, BPTT) 。 本 节 首 先 介绍 反 回 传播 (BP) 的 工作 原理 ; 然后 讨论 为 什么 反 回 传播 不 
能 直接 应 用 于 RNN， 以 及 反 向 传播 如 何 适应 RNN 后 可 以 产生 BPTT; 最 后 讨论 BPTT 中 存在 的 两 
个 主要 问题 。 


6.3.1 反 向 传播 工作 原理 


反问 传播 是 用 于 训练 前 馈 神 经 网 络 的 搁 术 ， 在 有 反 癌 传播 中 ， 执 行 以 下 操作 : 


(1) 计算 给 定 输入 的 预测 。 
(2) 通过 将 预测 与 对 应 实际 值 进行 比较 来 计算 预测 误差 E〈 例 如 均 方 误差 和 交叉 焙 损 失 ) 。 
(3) 在 所 有 层 上 的 所 有 权重 值 wa ;) (第 i 层 上 第 j 个 权重 值 ) 的 梯度 一 2 的 反方 向 调整 一 个 


OW(i j) 


小 的 步 长 ， 更 新 前 馈 网 络 的 权重 值 ， 从 而 使 得 步骤 OD 中 的 计算 损失 最 小 化 。 

为 了 方便 理解 , 我 们 这 里 给 出 前 馈 网 络 的 示意 图 且 省 去 了 输入 和 输出 的 时 间 部 分 。 这 里 有 两 个 
单一 权重 值 : U 和 V， 且 计算 出 两 个 输出 hn 和 y， 具 体 如 图 6-7 所 示 〈 这 里 假设 模型 中 不 存在 非 线 
TE) 。 
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6-7 ”前 馈 网 络 计算 
所 以 ， 我 们 可 以 利用 链 式 法 则 计算 元 ， 如 下 ; 


ðE  O(y-[)? 8(vh) 9(Ux) 
QU | 8y ðh ðU 


. OE  OLOyOh 
进一步 简化 得 到 : ðU ðyðh ðU 


XE, 是 数据 点 x 的 正确 标签 。 此 外 ， 我 们 假设 均 方 误差 为 损失 函数 。 这 里 的 所 有 内 容 都 已 
定义 ， 计 算 二 就 较为 简单 了 。 
6.3.2 直接 使 用 反 回 传播 的 局 限 性 

现在 ， 我 们 对 图 6-8 中 的 RNN 进行 类 似 的 操作 ， 这 里 新 增加 了 一 个 循环 权重 值 W。 


=Vh 


-UZ--Wh 


U 


© 


68 RNN 的 计算 
FREESE, (1l. 


ðE 9L9y ðh 
ðw ôy ðh ôW 
 0(y-D)? ð(vh) ,Q(Ux) , 9(Wh) 
|» 0y ðh ( ow aw ) 


这 里 ， 由 于 是 一 个 递归 项 ， 本 身 就 会 带 来 一 些 问题 。 最 终 会 得 到 无 穷 多 的 导数 项 ,因为 
是 递归 的 (也 就 是 说 ， 计 算 有 包括 本身 ) ， 且 不 是 常数 并 依赖 于 W。 在 这 种 情况 下 ， 我 们 需 
要 利用 基于 时 间 展开 输入 序列 x 来 解决 ， 为 每 个 输入 Xe 创建 RNN 的 副本 并 分 别 计算 每 个 副本 的 导 
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数 ， 通 过 对 梯度 求 和 将 它们 回 深 以 更 新 权重 值 。 接 下 来 简要 讨论 一 下 上 其 体 情况 。 


6.3.3 ”通过 反 回 传播 训练 RNN 


计算 RNN 反 向 传播 的 技巧 是 不 考虑 单个 输入 ， 而 是 考虑 完整 的 输入 序列 。 如 果 我 们 在 时 间 步 
-， 将 得 到 以 下 结果 : 


aw 全 /=1aysaha Oh; OW 
这 意味 着 我 们 需要 一 直 计算 到 第 4 个 时 间 步 长 的 所 有 时 间 步 长 的 梯度 之 和 。 换 句 话说 , 我 们 将 
首先 展开 序列 , 以 便 可 以 计算 每 个 时 间 步 长 j 的 Pe 和 L, 这 是 通过 创建 RNN 的 4 个 副本 来 完成 的 。 
因此 ， SERT S, 就 需要 (t-j+1) 份 的 RNN。 炭 着 将 这 些 副本 卷 起 到 单个 RNN， 通 过 之 前 所 有 时 间 
步 长 获得 的 梯度 归 总 求 和 ， 并 用 梯度 到 更 新 RNN。 但 是 ， 这 里 有 一 个 问题 ， 随 着 时 间 步 长 数 的 增 
加 , 相应 计算 成 本 也 会 增加 。 为 了 解决 这 个 问题 , 我 们 将 会 使 用 截断 BPTT (TBPTT) 来 优化 模型 ， 
这 是 BPTT 的 近似 值 。 


6.3.4 截断 BPTT 


在 截断 BPTT 中 ， 我 们 只 计算 固定 数量 的 个 时 间 步 长 的 梯度 ， 更 具体 地 说 ， 在 计算 过 时 ， 
对 于 时 间 步 长 t， 我 们 只 计算 导数 ， 直 到 t-T: 
ðE _wt-l OL 3ye he Ohj 
aw 4j-t- -T ay, ðht hj ow 
这 比 标准 BPTT 计算 效率 高 得 多 。 在 标准 BPTT 中 ， 对 于 每 个 时 间 步 长 t 我 们 计算 直到 序列 最 开 
始 的 导数 ， 但 随 着 序列 长 度 变 得 越 来 越 长 (例如 逐 字 处 理 文本 文档 ) ， 这 种 计算 是 难以 实现 的 。 而 在 
截断 的 BPTT 中 ， 我 们 仅 向 后 计算 固定 数量 的 导数 ， 可 以 想象 ， 随 着 序列 变 大 ， 计 算 成 本 不 会 改变 。 


6.3.5 BPTT 的 局 限 性 一 一 梯度 消失 和 榴 度 爆炸 


我 们 有 办 法 计算 循环 权重 值 的 梯度 并 给 出 有 效 的 近似 值 ， 如 TBPTT， 这 让 我 们 对 于 平稳 地 训 
练 RNN 感到 担忧 ， 这 里 的 计算 其 实 出 现 了 其 他 问题 。 
为 了 了 解 其 中 的 原因 ， 让 我 们 在 于 中 进行 相关 扩展 ， 如 下 所 示 : 


Qya4 Qh4 Qh4 oW gE oha ðh oW 


由 于 我 们 知道 反问 传播 的 问题 来 自 循 坏 连接 层 ， 让 我 们 忽略 Ux 项 ， 上 式 后 边 变 为 : 


Qya4 Qh4 Ohi oW ya oha Qh4 aw 
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下 面 我 们 对 hs 继续 展开 简单 运算 ， 得 到 : 
ad Cha UE, ud 

这 里 我 们 看 到 只 有 4 个 时 间 步 长 便 产 生 一 个 WwW3， 因 此 在 时 间 步 长 为 “第 几 个 ”时 ， 它 将 变 为 
WD。 下 面 从 两 个 方向 对 W 进行 极 值 分 析 ， 以 此 探讨 梯度 消失 和 梯度 爆炸 的 成 因 。 

1. 梯度 消失 

假设 我 们 在 n= 100 的 时 间 步 长 上 将 W 初始 化 得 非常 小 (比如 0.00001) ， 那 么 梯度 将 会 无 穷 
小 《比如 0.15) 。 另 外 ， 由 于 计算 机 在 表示 数值 方面 的 精度 有 限 ， 因 此 将 此 更 新 〈 数 值 下 浇 ) Z 
略 ， 这 被 称 为 消失 的 梯度 。 解 决 消失 的 梯度 问题 并 不 简单 。 这 里 没有 简单 的 方法 来 重 塑 梯度 ， 以 便 
它 能 够 在 时 间 上 正确 传播 。 在 某 种 程度 上 , 解决 梯度 消失 问题 的 方法 是 谨慎 使 用 权重 值 初始 化 ( 例 
如 Xavier 初始 化 ) ， 或 使 用 基于 动量 的 优化 方法 〈 也 就 是 说 ， 除 了 当前 的 梯度 更 新 外 ， 我 们 还 添 
加 了 一 个 额外 项 ， 即 所 有 过 去 梯度 的 累积 ， 称 为 速度 项 (Velocity Term) ) 。 然 而 ， 正 如 我 们 将 在 
第 7 章 “ 长 短期 记忆 网 络 ” 中 看 到 的 那样 ， 已 经 引入 了 更 多 有 规则 的 解决 方法 ， 例 如 对 标准 RNN 
的 不 同 结构 调整 等 。 


2. 梯度 爆炸 


假设 我 们 将 W 的 取 值 初始 化 得 非常 大 (比如 1000.00) ， 则 在 时 间 步 长 n 取 100 时 ， 梯 度 将 变 
得 非常 大 〔 比 例 为 103%”) 。 这 会 导致 数值 非常 不 稳定 ， 在 Python 中 将 会 获得 诸如 Inf (无 穷 大 ) 
或 NaN (不 是 一 个 数值 ) 之 类 的 结果 ， 这 就 称 为 梯度 爆炸 。 

其 实 , 问题 损失 表面 产生 的 复杂 性 也 可 能 引起 梯度 爆炸 。 由 于 输入 的 维 数 以 及 模型 中 存在 的 大 
量 参数 (权重 值 ) ， 复 杂 的 非 凸 损失 表面 在 深度 神经 网 络 中 非常 普遍 。 图 6-9 显示 了 RNN 的 损失 
表面 ， 并 突出 显示 了 具有 很 高 曲率 表面 的 存在 。 如 果 优 化 方法 与 这 样 的 表面 接触 ， 梯 度 就 会 爆炸 ， 
如 图 6-9 中 的 实 线 所 示 。 这 可 能 导致 非常 差 的 损失 最 小 化 或 数值 不 稳定 性 或 两 者 兼 而 有 之 。 在 这 种 
情况 下 ， 避 免 梯 度 爆 炸 的 简单 解决 方案 是 在 梯度 大 于 某 个 冰 值 时 将 梯度 取 值 调整 为 足够 小 。 图 6-9 
中 的 虚线 表示 当 我 们 将 梯度 调整 为 某 个 较 小 值 时 会 发 生 什 么 。 


2 -2.0 
5.4 -26 724,722 "^ 
* -2.8 -2-6 iue ofb 


6-9 ”梯度 爆炸 情况 
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关于 训练 RNN 中 的 梯度 问题 ， 论 文 《On the Difficulty of Training Recurrent Neural Networks) 
(Pascanu,Mikolov, and Bengio, International Conference on Machine Learning (2013): 1310-1318) 做 
了 相关 分 析 ， 感 兴趣 的 读者 可 以 阅读 该 论文 。 
到 目前 为 止 , 我 们 讨论 的 都 是 一 对 一 映射 的 RNN。 接 下 来 , 我 们 将 对 各 种 映射 类 型 的 RNN 做 
相关 介绍 ， 这 些 不 同 映射 类 型 的 RNN 在 句子 分 类 、 图 像 字幕 提取 及 机 器 翻译 中 有 很 好 的 应 用 。 


6.4 RNN 的 应 用 类 型 


一 对 一 映射 的 RNN 中 ， 当 前 输出 取决 于 当前 输入 以 及 先前 观察 到 的 输入 历史 。 这 意味 着 存在 
先前 观察 到 的 输入 序列 和 当前 输入 的 输出 。 然 而 ， 在 实际 的 应 用 中 ， 可 能 存在 这 样 的 情况 : 输入 序 
列 只 有 一 个 输出 、 单 个 输入 产生 的 输出 序列 以 及 序列 大 小 不 同 的 输入 序列 产生 的 输出 序列 。 在 本 节 
中 ， 我 们 将 对 这 些 情况 做 相关 介绍 。 


6.4.1 一 对 一 的 RNN 


在 一 对 一 的 RNN 中 ， 目 前 的 输入 取决 于 先前 观察 到 的 输入 ， 如 图 6-10 所 示 。 这 种 RNN 适用 
于 每 个 输入 都 有 输出 的 问题 , 但 输出 取决 于 当前 输入 和 导致 当前 输入 的 输入 历史 情况 。 这 类 任务 的 
一 个 典型 例子 是 股票 市 场 预测 。 另 一 个 例子 是 场景 分 类 , 其 中 图 像 中 的 每 个 像素 被 标记 (例如 汽车 、 
道路 和 人 的 标签 )。 对 于 某 些 问题 ， 有 了 时 x(ers) 可 能 与 yt 相同 。 例 如 ， 在 文本 生成 问题 中 ， 先 前 预 
测 的 词 变 为 预测 下 一 个 词 的 输入 。 


One-to-One | : 
RNN 


One-to-One 
RNN 


6.4.2 一 对 多 的 RNN 


一 对 多 的 RNN 采用 单个 输入 并 输出 序列 ， 如 图 6-11 所 示 。 这 里 假设 输入 彼此 之 间 是 独立 的 。 
也 就 是 说 ,我 们 不 需要 有 关 先 前 输入 的 信息 来 预测 当前 输入 。 循环 连接 还 是 需要 的 ， 因为 尽管 我 们 
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处 理 单个 输入 ， 但 输出 依赖 于 先前 输出 值 的 一 系列 值 。 这 类 RNN 第 应 用 于 图 像 字 幕 任 务 ， 例 如 对 
于 给 定 的 输入 图 像 ， 文 本 标题 可 以 由 5 个 或 10 个 词 所 组 成 。 换 句 话说 ，RNN 将 保持 预测 词 ， 直 到 
它 输出 的 短语 对 于 描述 图 像 是 有 意义 的 。 


yl y2 y3 


6.4.3 多 对 一 的 RNN 


6-11 一 对 多 的 RNN 


多 对 一 的 RNN 采用 任意 长 度 的 输入 作为 输入 ， 并 为 输入 序列 产生 单个 输出 ， 如 图 6-12 所 示 。 
句子 分 类 就 是 这 样 一 项 任务 ， 可 以 从 多 对 一 的 RNN 中 受益 。 句 子 是 任意 长 度 的 词 序 列 ， 其 被 视 为 
网 络 的 输入 ， 用 于 产生 将 句子 分 类 为 一 组 预定 义 类 之 一 的 输出 。 句 子 分 类 的 一 些 具 体例 子 如 下 : 


(D 将 电影 评论 分 类 为 正面 或 负面 陈述 (情感 分 析 〉。 

(2) 根据 句子 描述 的 内 容 (例如 人 物 、 对 象 和 位 置 ) 对 句子 进行 分 类 。 

多 对 一 的 RNN 的 男 一 个 应 用 是 通过 一 次 只 处 理 一 块 图 像 并 在 整个 图 像 上 移动 窗口 来 对 大 尺寸 
图 像 进行 分 类 。 


6-12 多 对 一 的 RNN 


6.4.4 多 对 多 的 RNN 


多 对 多 的 RNN 通常 从 任意 长 度 的 输入 中 产生 任意 长 度 的 输出 ， 如 图 6-13 所 示 。 换 句 话说 ， 输 
入 和 输出 不 必 具 有 相同 的 长 度 。 这 在 机 器 翻译 中 特别 有 用 ,我 们 将 句子 从 一 种 语言 翻译 成 另 一 种 语 
言 时 ， 可 以 想象 ， 某 种 语言 中 的 一 个 句子 并 不 总 是 与 另 一 种 语言 的 句子 对 齐 。 另 一 个 应 用 是 聊天 机 
器 人 ， 聊 天 机 器 人 读 取 一 系列 词 〈 用 户 请 求 ) 并 输出 一 系列 词 答案 ) 。 
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6-13 多 对 多 的 RNN 


6.5 利用 RNN 生成 文本 


现在 让 我 们 看 一 下 使 用 RNN 的 第 一 个 例子 。 在 本 例 中 , 我 们 将 使 用 RNN 生成 一 个 童话 故事 。 
这 是 一 对 一 的 RNN 问题 。 我 们 将 在 一 系列 童话 故事 中 训练 单 层 RNN， 并 要 求 RNN 生成 一 个 新 故 
事 。 对 于 这 项 任务 ,我 们 将 使 用 一 个 包含 20 个 不 同 故事 的 小 型 文本 语料库 ,这 个 例子 将 突显 出 RNN 
的 一 个 重大 局 限 性 : 缺乏 持久 的 长 期 记忆 。 本 例 代 码 详 见 cho 文件 夹 中 的 
6 mn language bigram.ipynb 文件 。 


65.1 定义 超人 参数 


定义 RNN 所 需 的 几 个 超 参数 具体 如 下 : 


(1) 单个 时 间 步 长 一 次 性 执行 的 展开 次 数 。 这 是 输入 展开 的 步 数 ,， 如 截断 BPTT 方法 (TBPTT 
中 的 T CTruncated). 是 有 效 训 练 RNN 部 分 ) 中 所 讨论 的 。 该 数字 越 大 ，RNN 的 记忆 越 长 。 但 是 ， 
由 于 梯度 消失 因素 ， 对 于 非常 高 的 num unol 值 (例如 大 于 S0) ， 此 值 的 效果 会 消失 。 注 意 ， 增 
加 num unroll 也 会 增加 程序 的 内 存 需 求 。 

(2) 训练 数据 、 验 证 数据 和 测试 数据 的 批量 大 小 。 较 高 的 批量 大 小 通常 会 之 来 更 好 的 结果 ， 
因为 我 们 会 在 每 个 优化 步骤 中 看 到 更 多 数据 , 然而 和 num unroll 一 样 , 这 会 导致 更 高 的 内 存 需 求 。 

(3) 输入 、 输 出 和 隐藏 层 的 维度 。 增 加 隐藏 层 的 维度 通常 会 带 来 更 好 的 性 能 。 但 请 注意 ， 增 
加 隐藏 层 的 大 小 会 导致 所 有 三 个 权重 值 集合 ( 即 U、W 和 Vo 的 增加 ， 从 而 导致 占用 较 高 的 计算 


空间 。 
首先 定义 展开 、 批 量 并 测试 批量 大 小 : 


num unroll = 50 
batch size = 64 


test batch size = 1 
Be PRENERA PEA Cc REHA RNN) ， 给 出 输入 和 输出 大 小 : 


hidden = 64 


in size,out size = vocabulary size,vocabulary size 
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6.5.2 ” 随 大 时 间 的 推移 展开 截断 BPTT 的 输入 


正如 我 们 之 前 看 到 的 ， 随 着 时 间 的 推移 展开 输入 是 RNN 优化 过 程 CTBPTT) 中 的 重要 部 分 。 
因此 ， 下 一 步 是 : 定义 输入 如 何 随 时 间 展 开 。 
这 里 给 出 一 个 例子 ， 假 设 有 一 个 句子 如 下 : 


Bob and Mary went to buy some flowers. 
假设 我 们 以 字符 的 粒度 级 别处 理 数据 。 另 外 ， 考 虑 一 批 数据 ， 并 且 展 开 的 步 数 (um unroll) 
是 5. 


首先 ， 我 们 将 句子 拆 分 成 字符 : 


' Ta "bti "9t. ' zt 二 es "Yt T "2 "EET "oT; "MT 'e', T Us ai 1" 


OTa "Wt 'e', A Ilo! 


我 们 采用 展开 的 前 三 批 输入 和 输出 ， 如 表 6-1 所 示 。 
表 6-1 前 三 批 输 入 和 输出 


X. NS t1 ,'W, 'e' NA t1! ,W, © bi 


通过 这 样 做 ，RNN 一 次 看 到 相对 长 的 数据 序列 ， 不 像 一 次 处 理 单个 字符 。 因 此 ， 它 可 以 保留 


train dataset, train labels = []j，[ 
for ui in range (num unroll): 
train dataset.append(tf.placeholder(tf.float32, 
shape-[batch size,in size],name-'train dataset $d'$ui)) 
train labels.append(tf.placeholder(tf.float32, 


shape-[batch size,out size],name-'train labels $d'$ui)) 


6.5.3 定义 验证 数据 集 


我 们 将 定义 一 个 验证 数据 集 以 测量 RNN 随时 间 的 性 能 情况 。 我 们 不 会 使 用 验证 集中 的 数据 进 
行 训练 ， 只 观察 验证 数据 的 预测 作为 RNN 性 能 的 指标 : 


valid dataset = tf.placeholder(tf.float32, 
shape-[1,in size],name-'valid dataset') 
valid labels = tf.placeholder(tf.float32, 


shape-[1,out size],name-'valid labels') 
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我 们 使 用 较 长 的 故事 收集 验证 集 , 并 从 最 后 提取 故事 的 一 部 分 。 代 码 文件 中 有 详细 的 解释 记录 ， 
读者 可 以 目 行 得 看 。 


6.5.4 定义 权重 值 和 仿 差 


在 这 里 ， 我 们 将 定义 RNN 的 几 个 权重 值 和 偏差 参数 。 


e W xh: 输入 和 隐藏 层 之 间 的 权重 值 。 
e Wh: 隐藏 层 的 重复 连接 的 权重 值 。 
@ Why: 隐藏 层 和 输出 之 间 的 权重 值 。 
W xh = tf.Variable(tf.truncated normal( 
[in size,hidden],stddev-0.02, 
dtype-tf.float32),name-'W xh') 
W hh = tf.Variable(tf.truncated normal([hidden,hidden], 
stddev-0.02, 
dtype-tf.float32),name-'W hh') 
W hy = tf.Variable(tf.truncated normal( 
[hidden,out size],stddev-0.02, 
dtype-tf.float32),name-'W hy') 


65.5 定义 状态 永久 变量 


在 这 里 ， 我 们 将 定义 用 于 区 分 RNN 与 前 馈 神 经 网 络 的 最 重要 的 实体 之 一 : RNN 的 状态 。 状 态 
变量 代表 RNN 的 记忆 。 此 外 ， 这 些 被 建 模 为 不 可 训练 的 TensorFlow 变量 。 

我 们 将 首先 定义 变量 (训练 数据 : prev train h 和 验证 数据 : prev valid h) 以 维持 用 于 计算 当 
前 隐藏 状态 的 隐藏 层 的 先前 状态 。 我 们 将 定义 两 个 状态 变量 。 一 个 状态 变量 在 训练 期 间 维 持 RNN 
的 状态 ， 男 一 个 状态 变量 在 验证 期 间 维持 RNN 的 状态 : 


prev train h = tf.Variable(tf.zeros([batch size,hidden], 


dtype-tf.float32),name-'train h',trainable-False) 
name-'prev hl',trainable-False) 
prev valid h = tf.Variable(tf.zeros([l,hidden],dtype-tf.float32), 


name-'valid h',trainable-False) 


6.5.6 ”使 用 展开 的 输入 计算 隐藏 状态 和 输出 


接 下 来 , 我 们 将 定义 每 个 展开 输入 的 隐藏 层 计 算 、 非 标准 化 分 数 和 预测 。 为 了 计算 每 个 隐藏 层 
的 输出 ， 我 们 保存 表示 每 个 展开 元 素 的 num unroll 隐藏 状态 输出 (代码 中 的 outputs) 。 然 后 计算 
所 有 num unroll 步 的 非 标 准 化 预测 (也 称 为 logits 或 得 分 ) 和 softmax 预测 。 


第 6 章 循环 神经 网 络 | 175 


# Æ num unroll 步 数 中 ， 为 每 个 步 长 添加 上 计算 的 RNN 输出 
outputs = list() 
# 这 将 在 计算 的 num unroll 步 数 中 迭代 使 用 
output h = prev train h 
# 计算 num unroll 步 数 的 RNN 输出 (根据 截断 的 BPTT 的 要 求 ) 
for ui in range (num unroll): 
output h - tf.nn.tanh( 
tf.matmul(tf.concat([train dataset[ui],output h],1), 
tf.concat([W xh,W hh],0)) 
) 
outputs.append(output h) 


然后 计算 非 标准 化 预测 Cy scores) 和 标准 化 预测 Cy predictions) ， 如 下 上 所 示 : 
+ 获取 我 们 为 num unroll 步 生 成 的 所 有 RNN 输出 的 分 数 和 预测 


y Scores = [tf.matmul(outputs[ui],W hy) for ui in range (num unroll)] 
y predictions - [tf.nn.softmax(y scores[ui]) for ui in range(num 
unroll)] 


657 计算 损失 


在 计算 预测 之 后 ， 接 看 计算 mn_loss。 损 失 是 预测 输出 和 实际 输出 之 间 的 交叉 燃 损 失 。 注 意 ， 
我 们 调用 t£control dependencies(...) 函 数 将 RNN(output hh) 的 最 后 一 个 输出 保存 到 prev train h 变量 
中 。 因 此 ， 在 下 一 次 达 代 中 ， 我 们 可 以 把 先前 保存 的 RNN 输出 作为 初始 状态 : 

# 确 保 在 计算 损失 之 前 ， 使 用 获得 的 最 后 一 个 RNN 输出 状态 来 更 新 状态 变量 

with tf.control dependencies([tf.assign(prev train h,output h)]): 

# 计 算 在 所 有 num unroll 步 中 一 次 性 获得 的 所 有 预测 的 softmax Az XU 

rnn loss = tf.reduce mean( 
tf.nn.softmax cross entropy with logits v2( 
logits-tf.concat(y scores,0), 


labels-tf.concat(train labels,0) 


)) 


6.5.8 EXER EB BUS 


我 们 还 需要 定义 隐藏 状态 重 置 操 作 。 在 测试 时 生成 新 的 文本 块 之 前 ， 尤 其 需要 使 用 重 置 操作 ， 
否则 RNN 将 继续 产生 依赖 于 先前 产生 的 文本 ， 从 而 导致 高 度 相 关 的 和 输出。 大 是 如 此 ， 束 很 粳 粒 ， 
因为 它 最 终 将 引起 RNN 一 遍 叉 一 遍地 输出 相同 的 词 。 实 际 上 ， 在 训练 期 间 重 置 状态 是 否 有 益 仍然 
存在 争议 。 不 过 ， 我 们 为 此 定义 了 TensorFlow 操作 : 


# 重 置 隐藏 状态 
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reset train h op = tf.assign(prev train h,tf.zeros( 
[batch size,hidden], 
dtype-tf.float32)) 
reset valid h op - tf.assign(prev valid h,tf.zeros( 


[1,hidden],dtype-tf.float32)) 


6.5.9 计算 验证 输出 


这 里 ， 类 似 于 训练 状态 、 损 失 和 预测 计算 ， 我 们 定义 了 用 于 验证 的 状态 、 损 失 和 预测 : 
# 计 算 下 一 个 有 效 状 态 ( 仅 1 步 ) 


next valid state = tf.nn.tanh(tf.matmul(valid dataset,W xh) + 
tf.matmul(prev valid h,W hh)) 

# 使 用 RNN 的 状态 输出 计算 预测 
# 但 在 此 之 前 ， 将 RNN 的 最 新 状态 输出 分 配给 验证 阶段 的 状态 变量 
# 所 以 需要 确保 执行 valid predictions 操作 以 更 新 验证 状态 
with tf.control dependencies([tf.assign(prev Valid h,next valid 
state)]): 

valid scores - tf.matmul(next valid state,W hy) 


valid predictions - tf.nn.softmax(valid scores) 


6.5.10 ”计算 梯度 和 优化 


由 于 已 经 定义 了 RNN 的 损失 ,我 们 将 使 用 随机 梯度 方法 来 计算 梯度 并 使 用 它们 。 为 此 ， 我 们 
使 用 TBPTT。 在 这 种 方法 中 ， 我 们 将 随时 间 而 展开 RNN 类似 于 我 们 如 何 随 时 间 展 开 输 入 〉 并 计 
算 梯度 ， 人 然后 回 深 计 算 的 梯度 以 更 新 RNN 的 权重 值 。 此 外 ， 我 们 将 使 用 AdamOptimizer， 这 是 一 
种 基于 动量 的 优化 方法 , 它 显 示 出 比 标准 随机 梯度 下 降 更 好 的 收敛 速度 ,此 外 ,使 用 Adam Optimizer 
时 请 确保 使 用 较 小 的 学 习 率 (例如 介 于 0.001 和 0.0001 之 间 )。 我们 还 将 使 用 梯度 裁剪 来 防止 任何 
潜在 的 梯度 爆炸 : 

rnn optimizer = tf.train.AdamOptimizer(learning rate-0.001) 

gradients, v = zip(*rnn optimizer.compute gradients (rnn loss)) 


gradients, _ = tf.clip by global norm (gradients, 5.0) 


rnn optimizer = rnn optimizer.apply gradients(zip(gradients, v)) 


6.6 输出 新 生成 的 文本 片段 


下 面 来 看 如 何 使 用 训练 模型 输出 新 文本 。 在 这 里 , 我 们 将 预测 一 个 词 , 将 该 词 用 作 下 一 个 输入 
并 预测 另 一 个 词 ， 以 这 种 方式 继续 进行 几 个 时 间 步 长 : 
# 获 取 测 试 阶段 隐藏 节点 的 先前 状态 
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prev test h - tf.Variable(tf.zeros([test batch size,hidden], 
dtype-tf.float32),name-'test h') 


# 测试 数据 集 


test dataset 


# 计算 测试 数据 的 隐藏 输出 
tf.nn.tanh(tf.matmul(test dataset,W xh) 十 
tf.matmul(prev test h,W hh) 


next test state 


) 


tf.placeholder(tf.float32, shape-[test batch size, 


in size],name-'test dataset') 


# 确保 每 次 进行 预测 时 都 更 新 测试 阶段 的 隐藏 状态 


with tf.control dependencies([tf.assign(prev test h,next test 


state)]): 


Re 


test prediction 


6./ 


tf.nn.softmax(tf.matmul(next test state,W hy)) 
# 请 注意 ， 我 们 在 重 置 测试 状态 时 使 用 了 小 的 赋值 《一 些小 的 填充 〈imputations) ) 
# 这 有 助 于 为 生成 的 文本 添加 更 多 变量 


reset test h op - tf.assign(prev test h,tf.truncated normal( 
[test batch size,hidden],stddev-0.01, 
dtype-tf.float32)) 


评估 RNN 的 文本 结果 输出 


这 里 我 们 将 显示 使 用 RNN 生成 的 文本 片段 ， 显 示 不 使 用 输入 展开 时 以 及 使 用 输入 展开 时 的 结 


在 没有 输入 展开 的 情况 下 ， 在 10 个 epoch 〈 即 训练 1038) 之 后 ， 得 到 以 下 结果 : 


him he had then the king then the king ferdinand the fait, 


king, 
the 
the 
the 
the 
the 
the 
the 
the 
and the 
and the 
and the 


and 
and 
and 
and 
and 
and 


and 


king, 


and the king, 


king, 
king, 
king, 
king, 
king, 
king, 
king, 
king, 
king, 
king, 


and the king, 


and the 
and the 
and the 
and the 
and the 
and the 
and the 
and the 
and the 


and the king, 


king, 
king, 
king, 
king, 
king, 
king, 
king, 
king, 
king, 


and 
and 
and 
and 
and 
and 
and 
and 


and 


and the king, 
and the king, 


the 
the 
the 
the 
the 
the 
the 
the 
the 


king, 
king, 
king, 
king, 
king, 
king, 
king, 
king, 
king, 


and the king, 


and 
and 
and 
and 
and 
and 
and 
and 


and 


and the king, 


the 
the 
the 
the 
the 
the 
the 
the 
the 


而 在 输入 展开 时 ， 在 10 个 epoch 后 将 获得 以 下 内 容 : 


when the maiden,who was standing behind the door watching, 


god grant that our sister may be here, 


and the king, 
and the king, 


king, 
king, 
king, 
king, 
king, 
king, 
king, 
king, 
king, 


and 
and 
and 
and 
and 
and 
and 
and 


and 


and the king, 


the 
the 
the 
the 
the 
the 
the 
the 
the 


and the 


and 


and the king, 


king, 
king, 
king, 
king, 
king, 
king, 
king, 
king, 
king, 


1/7 


king, and the 


the king, 


and the 


and 
and 
and 
and 
and 
and 
and 
and 


and 


and the king, 


the 
the 
the 
the 
the 
the 
the 
the 
the 


and 
king, 
king, 
king, 
king, 
king, 
king, 
king, 
king, 
king, 
king, 


and... 


and then we shall be free. 


heard thatwish, 
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she came forth, and on this all the ravens were restored to their 
human form again. and they embraced and kissed each other, 

and went joyfully home whome, and wanted to eat and drink, and 
looked for their little plates and glasses. then said one after 
the other, who has eaten something from my plate. who has drunk 
out of my little glass. it was a human mouth. and when the 
seventh came to the bottom of the glass, the ring rolled against 
his mouth. then he looked at it, and saw that it was a ring 
belonging to his father and mother, and said, god grant that our 


sister may be here, and then we shall be free. .. 


从 这 些 结果 中 , 我 们 可 以 观察 到 一 点 , 与 每 次 处 理 单个 输入 相 比 ， 它 实际 上 有 助 于 随时 间 推 移 
进行 输入 展开 。 然 而 即使 展开 输入 ， 也 存在 一 些 语法 错误 和 罕见 的 拼写 错误 (这 是 可 以 接受 的 ， 因 
为 我 们 一 次 处 理 两 个 字符 ) 。 

另 一 点 值得 注意 的 是 ， 我 们 的 RNN 试图 通过 组 合 之 前 看 到 的 不 同 故事 来 产生 一 个 新 的 故事 。 
我 们 可 以 看 到 ， 首 先 谈论 的 是 乌鸦 ， 然后 通过 谈论 盘子 和 有 人 从 盘子 里 吃 东 西 ， 把 故事 转移 到 类 似 
于 金发 姑娘 和 三 只 能 (Goldilocks and the Three Bears) 的 故事 。 接 下 来 , 这 个 故事 引出 了 一 枚 戒指 。 

这 意味 着 RNN 已 经 学 会 了 组 合 故事 ， 并 想 出 新 的 故事 。 然 而 ， 我 们 可 以 通过 引入 更 好 的 学 习 
模型 〈 例 如 LSTM) 和 更 好 的 搜索 技术 《例如 集束 搜索 ) 来 进一步 改善 这 些 结 果 ， 这 些 将 在 下 一 章 
中 介绍 。 


由 于 语言 的 复杂 性 和 RNN 较 小 的 表示 能 力 , 在 整个 学 习 过 程 中 , 不 太 可 能 获得 与 本 文 所 
示 的 文本 一 样 恨 好 的 输出 。 因 此 ， 我 们 挑选 了 一 些 生成 的 文本 ， 以 表达 我 们 的 观点 。 


注意 ， 这 是 一 个 精心 挑选 的 文本 生成 示例 ， 和 仔细 观察 会 发 现 ， 随 着 时 间 的 推移 ， 如 果 继 续 多 次 
KRRIT, RNN 会 一 遍 又 一 遍地 重复 同一 块 文本 。 我 们 可 以 看 到 ， 这 在 前 面 的 文本 片段 中 
己 经 存在 ， 其 中 第 一 个 句子 与 最 后 一 个 句子 相同 。 随 着 数据 集 大 小 的 不 断 增 加 ， 我 们 会 发 现 ， 这 个 
问题 会 变 得 更 加 突出 。 这 是 由 于 梯度 消失 问题 导致 我 们 的 RNN 的 记忆 能 力 不 足 引起 的 。 而 为 了 减 
少 这 种 影响 ， 在 69 和 610 节 中 ， 我 们 将 讨论 RNN 的 一 种 变 体 一 一 具有 上 下 文 特征 的 RNN 
(RNN-CF) ， 可 以 减少 这 种 影 啊 。 


6.8 ”困惑 度 一 一 文本 生成 结果 质量 的 度量 


在 信息 论 中 ， 困 惑 度 (Perplexity〉 用 来 度量 一 个 概率 分 布 模型 或 概率 模型 预测 样本 的 好 坏 程 
E, 也 可 以 用 来 比较 两 个 概率 分 布 或 概率 模型 。 低 困惑 度 的 概率 分 布 模型 或 概率 模型 能 更 好 地 预测 
样本 。 关 于 困惑 度 的 更 多 信息 ， 读 者 可 以 得 看 维基 百科 给 出 的 解释 Chttps://en.wikipedia.org/wiki/ 
Perplexity) 。 

我 们 的 工作 不 仅仅 是 利用 模型 生成 新 的 文本 , 还 需要 利用 一 个 方法 来 衡量 生成 文本 的 质量 。 一 
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种 方法 是 测量 RNN 过 到 给 定 输入 的 输出 会 产生 多 大 程度 的 困惑 程度 (Perplexed， 或 者 惊讶 程度 
(Surprised) ) 。 也 就 是 说 ， 如 果 输 入 xij 及 其 对 应 的 输出 yj 的 交叉 炉 损失 是 1(x;，y;)， 那 么 困惑 度 
将 是 : 
p(Xi, yi) = ee 
使 用 这 个 方法 可 以 计算 大 小 为 N 的 训练 数据 集 的 平均 困惑 ， 具 体 如 下 : 
p(Derain) = o / X ti-op co y) 

在 图 6-14 中 ， 我 们 展示 了 训练 困惑 度 和 验证 困惑 度 随 时 间 的 变化 情况 。 我 们 可 以 看 到 ， 训 练 
难度 随 着 时 间 的 推移 而 稳步 下 降 ， 其 中 验证 困惑 度 则 呈 显 著 波 动 状态 。 其 实 这 是 可 以 理解 的 ， 因 为 
在 验证 困惑 度 中 ， 本 质 上 评估 的 是 RNN 基于 我 们 对 训练 数据 的 学 习 来 预测 不 可 见 文 本 的 能 力 。 由 
于 语言 任务 很 难 建 模 ， 因 此 这 是 一 个 非常 困难 的 任务 ， 出 现 这 些 波 动 是 很 正常 的 事情 。 


训练 数据 的 困惑 度 | 验证 数据 的 困惑 度 


一 一 — e 下 — e 


Epoch Epoch 
图 6-14 训练 数据 和 验证 数据 的 困惑 度 随 时 间 变 化 的 示意 图 
这 里 有 一 种 改善 结果 的 方法 ， 就 是 癌 RNN 增加 更 多 的 隐藏 层 ， 因 为 更 深层 次 的 模型 通常 可 以 
提供 更 好 的 结果 。 我 们 在 chó 文件 夹 中 的 6 mn language bigram multilayer.ipynb 中 实现 了 一 个 三 
层 RNN， 读 者 可 以 日 行 查 看 。 
现在 我 们 来 看 一 个 问题 ， 是 否 有 更 好 的 RNN 的 变 体会 工作 得 更 好 呢 ? 例如 ， 有 没有 RNN 的 
变 体能 更 有 效 地 解决 梯度 消失 的 问题 ? 在 下 一 节 中 ， 我 们 来 讨论 一 个 称 为 RNN-CF 的 变 体 。 


6.9 具有 上 下 文 特征 的 循环 神经 网 络 
RNN-CF 


前 面 我 们 讨论 了 训练 简单 RNN 的 两 个 重要 挑战 : 梯度 爆炸 和 梯度 消失 。 我 们 知道 可 以 用 一 个 
简单 的 策略 来 防止 梯度 爆炸 ， 例 如 梯度 裁剪 ， 从 而 实现 更 稳定 的 训练 。 然 而 ， 对 于 梯度 消失 问题 而 
言 ， 还 需要 更 加 努力 地 去 做 ， 因 为 没有 简单 的 缩放 /裁剪 机 制 可 以 解决 梯度 消失 问题 ， 就 像 我 们 对 
梯度 爆炸 所 做 的 那样 。 因 此 ， 我 们 需要 修改 RNN 本 身 的 结构 ， 明 确 地 赋予 它 记忆 数据 序列 中 较 长 
模式 的 能 力 。Tomas Mikolov 等 人 于 2015 年 在 其 文章 《Learning Longer Memory in Recurrent Neural 
Networks) (International Conference on Learning Representations) 中 提出 了 RNN-CF， 是 标准 RNN 


180 | TensorFlow 与 自然 语言 处 理应 用 


修改 后 的 一 种 模型 ， 能 够 帮助 RNN 更 长 时 间 地 记 住 数据 序列 中 较 长 的 模式 。 

RNN-CF 通过 引入 新 的 状态 和 一 组 新 的 前 同和 循环 连接 来 减少 梯度 消失 。 换言之 , 与 仅 具 有 单 
个 状态 回 量 的 标准 RNN 相 比 ，RNN-CF 将 具有 两 个 状态 问 量 。 其 主要 思想 是 ， 一 个 状态 向 量变 化 
缓慢 ， 用 于 保留 较 长 的 记忆 ， 而 另 一 个 状态 同 量 可 以 快速 变化 ， 用 于 短期 记忆 工作 。 


6.9.4 RNN-CF 的 技术 说 明 
在 这 里 ， 我 们 用 几 个 参数 来 调整 传统 的 RNN， 以 帮助 维持 更 长 时 间 的 记忆 。 除 了 标准 RNN 模 


型 中 存在 的 第 规 状 态 回 量 之 外 ,这些 调 整 还 包括 引入 新 的 状态 向 量 。 因 此 ,还 引入 了 几 个 前 向 和 循 
环 的 权重 值 集 。 在 抽象 层次 上 ， 图 6-15 给 出 了 RNN 与 RNN-CF 比较 的 示意 图 。 


6-15 RNN 5 RNN-CF 比较 的 示意 图 


从 图 6-15 中 可 以 看 到 ， 与 传统 的 RNN 相 比 ，RNN-CF 具有 一 些 额 外 的 权重 值 。 现 在 让 我 们 仔 
细 看 看 这 些 图 层 和 权重 值 是 做 什么 的 。 
首先 ， 输 入 由 两 个 隐藏 展 接 收 ， 就 像 在 RNN 中 发 现 的 传统 隐藏 层 一 样 。 我 们 己 经 看 到 ， 仅 使 
用 这 个 隐藏 层 在 保留 长 期 记忆 方面 效果 不 佳 。 但是, 我们 可 以 通过 强制 循环 窍 阵 接近 同一 性 并 消除 
非 线性 来 强制 隐藏 层 更 长 时 间 地 保留 记忆 。 当 循环 窃 阵 接近 同一 性 而 没有 非 线 性 时 , REE h 上 的 
任何 变化 都 应 该 始终 来 自 于 输入 的 变化 。 换 句 话说 ， 先 前 的 状态 对 改变 当前 状态 的 影响 较 小 。 这 导 
致 状态 变化 慢 于 密集 的 权重 值 矩 阵 和 非 线 性 。 因 此 ， 这 种 状态 有 助 于 更 长 时 间 地 保留 记忆 。 支持 循 
环 和 矩阵 接近 1 的 另 一 个 原因 是 , 当权 重 值 接近 1 时 ,出 现在 推导 中 的 项 如 wM 9 将 不 会 消失 或 爆炸 。 
但 是 ， 如 果 我 们 仅 使 用 此 而 没有 非 线 性 的 隐藏 层 的 话 ， 梯 度 就 永远 不 会 减少 。 在 这 里 ， 对 于 梯度 减 
小 的 影响 ， 旧 的 输入 应 该 远 小 于 最 近 的 输入 。 然后 ,我们 需要 通过 时 间 将 梯度 传播 到 输入 的 起 始 位 
置 , 但 这 样 的 成 本 很 高 。 因 此 ， 为 了 充分 利用 这 两 个 方面 ， 我 们 保留 了 这 两 个 层 : 可 以 快速 变化 的 
标准 RNN IRSE Ch), 以 及 变化 更 慢 的 上 下 文 特征 层 (sr)。 这 个 新 层 称 为 上 下 文 层 (Context Layer), 
是 一 个 有 助 于 保持 长 期 记忆 的 层 。RNN-CF 的 更 新 规则 如 下 这 里 我 们 没有 看 到 s(t_wy 被 一 个 单位 
窍 阵 所 乘 ， 是 因为 Tsc_D= Se- o 
s, = (1 — a)Bx, + asq..) 
h, = o(Ps, + Ax, + Rhq. 4) 
y, = softmax(Uh, + Vs,) 
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与 RNN-CF 相关 的 符号 总 结 在 表 6-2 中 。 


表 6-2 RNN-CF 相关 的 符号 列表 
具体 含义 

当前 的 输入 

当前 的 状态 向 量 

当前 的 输出 

当前 上 下 文 的 特征 同 量 

Xt 和 ht 之 间 的 权重 矩阵 


Xt 和 si 之 间 的 权重 矩阵 


hi 的 循环 连接 

控制 s(e_1) 对 st 影响 的 常量 
六 和 st 之 间 的 权重 矩阵 
ht 和 yt 之 间 的 权重 矩阵 


st 和 yt 之 间 的 权重 矩阵 


69.2 RNN-CF 的 实现 


前 面 我 们 已 经 讨论 了 RNN-CF 包含 的 额外 的 状态 回 量 以 及 它 如 何 帮助 防止 梯度 消失 。 这 里 我 
们 将 讨论 RNN-CF 的 实现 。 除 了 传统 RNN 实现 中 的 隐藏 层 (he) ~ Wen PHJ AO ~ Wan CK 
中 的 R)〉 和 Why〈 表 中 的 U) 之 外 ， 现 在 还 需要 为 外 三 组 权 草 值 ， 即 我 们 将 定义 B、P 和 V。 此 外 ， 
我 们 将 定义 一 个 新 变量 来 包含 s(Hidden Context, GER) 。 


6.9.3 定义 RNN-CF 超 参 数 


首先 我 们 将 定义 超 参 数 , 包括 之 前 定义 的 超 参数 和 新 参数 。 一 个 新 的 超 参数 定义 了 上 下 文 特 征 
层 中 的 神经 元 数量 s*， 其 中 alpha 表示 等 式 中 的 a。 


hidden context = 64 
alpha = 0.9 


6.9.4 定义 输入 和 输出 占 位 符 


正如 我 们 对 标准 RNN 所 做 的 那样 ， 定 义 占 位 符 以 包含 训练 输入 和 输出 、 验 证 输入 和 输出 以 及 
测试 输入 : 
# 训练 数据 集 


train dataset, train labels = [],[] 
for ui in range (num unroll): 
train dataset.append(tf.placeholder(tf.float32, 


shape-[batch size,in size], 
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name-'train dataset $d'$ui)) 
train labels.append(tf.placeholder (tf.float32, 
shape-[batch size,out size], 


name-'train labels $d'$ui)) 


* 验证 数据 集 
valid dataset = tf.placeholder (tf.float32, 
shape-[1,in size],name-'valid dataset') 

valid labels = tf.placeholder(tf.float32, 

shape-[1,out size],name-'valid labels') 
# 测试 数据 集 
test dataset = tf.placeholder(tf.float32, 

shape-[test batch size,in size], 


name-'save test dataset') 


6.9.5 定义 RNN-CF 的 权重 值 


我 们 将 定义 RNN-CF 计算 所 需 的 权重 值 。 正 如 在 符号 表 中 看 到 的 那样 ， 这 里 RNN-CF 计算 需 


要 6 组 权重 值 (A、B、R、P、U 和 V) 。 而 在 传统 的 RNN 计算 中 ， 只 需要 三 组 权重 值 就 可 以 了 。 


# 输入 层 和 隐藏 层 (n) 之 间 的 权重 值 


A — tf.Variable(tf.truncated normal([in size,hidden], 
stddev-0.02,dtype-tf.float32),name-'W xh') 


UJ 
Il 


tf.Variable(tf.truncated normal([in size,hidden context], 


stddev-0.02,dtype-tf.float32),name-'W xs') 


# 隐藏 层 (h) 间 的 权重 值 


R = tf.Variable(tf.truncated normal([hidden,hidden], 
stddev-0.02,dtype-tf.float32),name-'W hh') 
P — tf.Variable(tf.truncated normal([hidden context,hidden], 


stddev-0.02,dtype-tf.float32),name-'W ss') 


# 隐藏 层 (h) 和 输出 层 (y) 之 间 的 权重 值 
tf.Variable(tf.truncated normal([hidden,out size], 


stddev-0.02,dtype-tf.float32),name-'W hy') 


tf.Variable(tf.truncated normal([hidden context,out size],stddev-0.02, 
dtype-tf.float32), 


< 
Il 


name-'W sy') 


# 训练 数据 的 状态 变量 
prev train h = tf.Variable(tf.zeros([batch size,hidden],dtype-tf.float32), 


name-'train h',trainable-False) 


prev train s = tf.Variable(tf.zeros([batch size,hidden context], 
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dtype-tf.float32),name-'train s', 


trainable-False) 


# 验证 数据 的 状态 变量 
prev valid h = tf.Variable(tf.zeros([1,hidden],dtype-tf.float32), 
name-'valid h',trainable-False) 
prev valid s = tf.Variable(tf.zeros([l1,hidden context],dtype-tf.float32), 
name-'valid s',trainable-False) 
# ”测试 数据 的 状态 变量 
prev test h = tf.Variable(tf.zeros([test batch size,hidden];, 
dtype-tf.float32), 
name-'test h') 
prev test s = tf.Variable(tf.zeros([test batch size,hidden context], 


dtype-tf.float32),name-'test s') 


6.9.06 ”用 于 维护 隐 茂 层 和 上 下 文 状态 的 变量 和 操作 


我 们 将 定义 RNN-CF 的 状态 变量 。 除 了 传统 RNN 中 的 hi 之 外 ， 我们 还 需要 对 上 下 文 特征 有 一 
个 单独 的 状态 ， 即 st。 总 之 ， 我 们 将 有 6 个 状态 变量 。 其 中 ， 三 个 状态 变量 在 训练 、 验 证 和 测试 期 
间 维 持 状 态 向 量 六 ， 而 另外 三 个 状态 变量 在 训练 、 验 证 和 测试 期 间 维持 状态 向 量 s,: 


# 训练 数据 的 状态 变量 

prev train h =: tf.Variable(tf.zeros([batch size,hidden], 
dtype-tf.float32), 
name-'train h',trainable-False) 

prev train s = tf.Variable(tf.zeros([batch size,hidden context], 
dtype-tf.float32),name-'train s', 


trainable-False) 


# 验证 数据 的 状态 变量 
prev valid h = tf.Variable(tf.zeros([l1,hidden],dtype-tf.float32), 
name-'valid h',trainable-False) 
prev valid s = tf.Variable(tf.zeros([l1,hidden context], 
dtype-tf.float32), 
name-'valid s',trainable-False) 
# 测试 数据 的 状态 变量 
prev test h = tf.Variable(tf.zeros([test batch size,hidden], 
dtype-tf.float32), 
name-'test h') 
prev test s = tf.Variable(tf.zeros([test batch size,hidden context], 


dtype-tf.float32),name-'test s') 


接 下 来 ， 我 们 定义 所 需 的 重 置 操 作 ， 以 重 置 状态 : 
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reset prev train h op = tf.assign(prev train h,tf.zeros([batch size, 
hidden], dtype-tf.float32)) 
reset prev train s op = tf.assign(prev train s,tf.zeros([batch size, 


hidden context],dtype-tf.float32)) 


reset valid h op tf.assign(prev valid h,tf.zeros([1,hidden], 


dtype-tf.float32)) 


reset valid s op tf.assign(prev valid s,tf.zeros([1,hidden context], 
dtype-tf.float32)) 
# 加 入 噪声 来 估算 测试 状态 
reset test h op = tf.assign(prev test h,tf.truncated normal( 
[test batch size,hidden], 
stddev-0.01, 
dtype-tf.float32)) 
reset test s op = tf.assign(prev test s,tf.truncated normal( 
[test batch size,hidden context], 


stddev-0.01,dtype-tf.f1loat32)) 


6.9.7 计算 输出 


在 定义 了 所 有 和 输入、 变量 和 状态 向 量 之 后 ， 现 在 根据 前 面 提 到 的 方程 式 来 计算 RNN-CF 的 输 
出 。 首 先 ， 将 状态 回 量 初始 化 为 零 。 其 次 ， 将 针对 一 组 固定 的 时 间 步 长 《根据 BPTT 的 需要 ) 展开 
我 们 的 输入 ， 并 分 别 计算 每 个 展开 步 又 的 非 标 准 化 输出 (有 时 称 为 logits 或 得 分 ) 。 接 着 ， 将 连接 
属于 每 个 展开 时 间 步 长 的 所 有 y 值 , 最 后 计算 所 有 这 些 项 的 平均 损失 ,并 将 其 与 真实 标签 进行 比较 : 


# 训练 得 分 〈 非 标准 化 ) 值 和 预测 〈 标 准 化 ) 


y Scores, y predictions = [],[] 


# 这 些 将 在 num unroll 计算 步骤 中 迭代 使 用 
next h state = prev train h 


next s state — prev train s 


# Æ num unroll 步 数 中 为 每 个 步 长 添加 计算 的 RNN 输出 


next h states unrolled, next s states unrolled = [],[] 


HA num unroll 步 数 计算 RNN 的 输出 (根据 截断 的 BPTT 的 要 求 ) 
for ui in range (num unroll): 
next h state = tf.nn.tanh( 
tf.matmul(tf.concat([train dataset[ui],prev train h, 
prev train s],l1), 
tf.concat([A,R,P],0)) 
) 


next s state = (l-alpha)*tf.matmul(train dataset[ui],B) + 
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alpha * next s state 
next h states unrolled.append(next h state) 


next s states unrolled.append(next s state) 


# 获 取 为 num_unroll 步 生 成 的 所 有 RNN 输出 的 分 数 和 预测 

y Scores = [tf.matmul(next h states unrolled[ui],U) + 
tf.matmul(next s states unrolled[ui],V) 
for ui in range (num unroll)] 

y predictions - [tf.nn.softmax(y scores[ui]) for ui in range(num 


unroll)] 


698 计算 损失 


本 节 定 义 有 关 RNN-CF 的 损失 的 计算 。 此 操作 与 之 前 我 们 为 标准 RNN 定义 的 操作 相同 ， 如 下 
所 示 : 
# 确保 在 计算 损失 之 前 ， 使 用 我 们 获得 的 最 后 一 个 RNN 的 输出 状态 来 更 新 状态 变量 


with tf.control dependencies([tf.assign(prev train s, next s state), 
tf.assign(prev train h,next h state)]): 
rnn loss = tf.reduce mean( 
tf.nn.softmax cross entropy with logits v2( 
logits-tf.concat(y scores,0), 


labels-tf.concat(train labels,0) )) 


6.9.9 计算 验证 输出 


与 在 训练 时 计算 的 输出 类 似 , 我 们 这 里 计算 验证 输入 的 输出 。 但是, 我 们 不 会 像 处 理 训练 数据 
那样 展开 输入 ， 因 为 在 预测 期 间 不 需要 展开 : 


# 验证 数据 相关 的 推理 逻辑 (非常 类 似 训练 推理 逻辑 ) 
# 计算 下 一 个 验证 状态 ( 仅 1 步 ) 
next valid s state = (l-alpha) * tf.matmul (valid dataset,B) + 
alpha * prev valid s 
next valid h state = tf.nn.tanh(tf.matmul(valid dataset,A) + 
tf.matmul(prev valid s, P) + 


tf.matmul(prev valid h,R)) 


# 使 用 RNN 的 状态 输出 计算 预测 

# 但 在 此 之 前 ， 将 RNN 的 最 新 状态 输出 分 配给 验证 阶段 的 状态 变量 

# 因此 ， 需 要 确保 执行 rnn valid loss 操作 以 更 新 验证 状态 

with tf.control dependencies([tf.assign(prev valid s, next valid s state), 


tf.assign(prev valid h,next valid h state)]): 
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valid scores = tf.matmul(prev Valid h, U) + tf.matmul(prev valid s, V) 


valid predictions = tf.nn.softmax(valid scores) 


6.9.00 “计算 测试 输出 


我 们 现在 可 以 定义 输出 计算 以 生成 新 的 测试 数据 : 


# 测试 数据 相关 的 推理 逻辑 
# 计 算 测 试 数据 的 隐藏 输出 


next test s = (l-alpha)*tf.matmul(test dataset,B)+ alpha*prev test s 


next test h — tf.nn.tanh( 
tf.matmul(test dataset,A) + tf.matmul(prev test s,P) 十 


tf.matmul(prev test h, R) ) 


# 确保 每 次 进行 预测 时 都 已 更 新 了 测试 阶段 的 隐藏 状态 
with tf.control dependencies([tf.assign(prev test s,next test s), 
tf.assign(prev test h,next test h)]): 


test prediction = tf.nn.softmax( 
tf.matmul(prev test h,U) + tf.matmul(prev test s,V) 


6.9.11 计算 梯度 和 优化 


下 面 使 用 优化 右 来 最 小 化 损失 ， 这 与 之 前 对 于 传统 RNN 所 做 的 方法 相同 : 


rnn optimizer = tf.train.AdamOptimizer(learning rate-.001) 
gradients, v = zip(*rnn optimizer.compute gradients (rnn loss)) 
gradients, = tf.clip by global norm (gradients, 5.0) 


rnn optimizer - rnn optimizer.apply gradients(zip(gradients, v)) 


6.10 使 用 RNN-CF 生成 的 文本 


这 里 我 们 将 对 RNN 和 RNN-CF 生成 的 文本 进行 定性 和 和 定量 的 比较 。 首 先 比 较 使 用 20 个 训练 
文档 获得 的 结果 。 之 后 将 训练 文档 的 数量 提高 到 100， 以 查看 RNN 和 RNN-CF 是 否 能 够 合并 大 量 


数据 ， 以 便 输 出 质量 更 好 的 文本 。 
首先 ， 对 于 使 用 20 个 训练 文档 ，RNN-CF 生成 的 文本 如 下 : 


the king's daughter, who had 


no more excuses left to make. they cut the could not off, and her his 


first rays of life in the garden, 
and was amazed to see with the showed to the grown mighted and the 
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seart the answer to star's brothers, and seeking the golden apple, we 
flew over the tree to the seadow where her 


heard that he could not have discome. 


emptied him by him. she himself 'well i ston the fire struck it was 
and said the youth, farm of them into the showed to shudder, but here 
and said the fire himself 'if i could but the youth, and thought that 
is that shudder.' 

'then, said he said 'i will by you are you, you.' then the king, who 
you are your 

wedding-mantle. you are you are you 

bird in wretch me. ah. what man caller streep them if i will bed. 

the youth 

begged for a hearing, and said 'if you will below in you to be your 
wedding-mantle.' 'what.' said he, 'i shall said 'if i hall by you are you 


bidden it i could not have 


就 文本 的 质量 而 言 ， 与 标准 的 RNN 相 比 ， 我 们 看 不 到 太 大 的 差别 。 至 于 为 什么 RNN-CF 没有 
比 标准 RNN 表现 得 更 好 , Mikolov 等 人 在 他 们 的 论文 《Learning Longer Memory in Recurrent Neural 
Network) "Bits: “ 当 标 准 隐藏 单元 的 数量 足以 捕获 短期 模式 时 ， 学 习 目 循环 权重 值 似乎 就 不 再 
重要 了 ”。 

因此 ， 如 果 隐 藏 单 元 的 数量 足够 大 ，RNN-CF 与 标准 RNN 相 比 就 没有 明显 的 优势 。 这 可 能 就 
是 我 们 观察 到 这 一 点 的 原因 所 在 。 在 代码 中 ， 我 们 只 使 用 了 64 个 隐藏 的 神经 元 和 一 个 相对 较 小 的 
语料库 ， 它 足以 表示 一 个 故事 ， 达 到 RNN 所 能 达到 的 水 平 。 

我 们 再 来 看 看 增加 数据 量 是 否 真 的 有 助 于 RNN-CF 执行 得 更 好 。 对 于 这 里 的 示例 ， 在 训练 了 
大 约 50 个 epoch 之 后 ， 我 们 将 把 文档 数量 增加 到 100 个 。 

以 下 是 标准 RNN 的 输出 : 


they were their dearest and she she told him to stop crying to the 
king's son they were their dearest and she she told him to stop crying 
to the king's son they were their dearest and she she told him to stop 
crying to the king's son they were their dearest and she she told him 
to stop crying to the king's son they were their dearest and she she 


told him to stop 


我 们 可 以 看 到 ， 与 使 用 较 少 数据 时 的 表现 相 比 ，RNN 变 得 更 糟 了 。 数 据 量 大 和 模型 容量 不 足 
对 标准 RNN 有 不 利 影响 ， 导 致 它们 和 输出 低 质 量 的 文本 。 
以 下 是 RNN-CF 的 输出 。 我 们 可 以 看 到 ， 就 变化 而 言 ，RNN-CF 比 标准 RNN 做 得 好 得 多 : 


then they could be the world. not was now from the first for a set 
out of his pocket, what is the world. then they were all they were 
forest, and the never yet not rething, and took the 


children in themselver to peard, and then the first her. then the was 
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in the first, and that he was to the first, and that he was to the 

kitchen, and said, and had took the 

children in the mountain, and they were hansel of the fire, gretel of 

they were all the fire, goggle-eyes and all in the moster. when she 

had took the changeling the little elves, and now ran into them, and she bridge 
away with the witch form, 

and their father's daughter was that had neep himselver in the horse, 

and now they lived them himselver to them, and they were am the 

marriage was all they were and all of the marriage was anger of the 

forest, and the manikin was laughing, who had said they had not know, 

and took the children in themselver to themselver and they lived them himselver 
to them 


因此 ， 当 数据 充足 时 ，RNN-CF 模型 实际 上 优 于 标准 RNN 模型 。 我 们 将 为 这 两 个 模型 绘制 随 
时 间 变 化 的 训练 和 验证 的 困惑 度 。 正 如 我 们 所 看 到 的 ， 在 训练 困惑 度 方面 ，RNN-CF 和 标准 RNN 
没有 显著 差异 。 最 后 ， 在 验证 困惑 度 图 (参见 图 6-16) 中 可 以 看 到 ， 与 标准 RNN 相 比 ，RNN-CF 
显示 了 更 少 的 波动 。 
训练 数据 的 困惑 度 验证 数据 的 困惑 度 


» 
Epoch 


6-16 RNN, RNN-CF 的 训练 数据 困惑 度 和 验证 数据 困惑 度 示 意图 


在 这 里 可 以 得 出 一 个 重要 的 结论 , 当 数 据 量 较 小 时 , 标准 RNN 可 能 是 过 拟 合 数据 。 也 就 是 说 ， 
RNN 可 能 按 原 样 记忆 数据 ,而 不 是 试图 学 习 数 据 中 存在 的 更 常见 的 模式 。 当 RNN 被 大 量 数据 淹没 
并 且 被 训练 更 长 时 间 ( 比 如 大 约 训练 50 遍 ， 即 50 个 epoch) 时 ， 这 种 弱点 变 得 更 加 突出 。 产 生 的 
文本 质量 下 降 ， 验 证 困惑 度 的 波动 也 比较 大 。 而 RNN-CF 对 小 量 数据 和 大 量 数据 均 表 现 出 一 定 的 
一 致 性 。 


6.11 总结 


-— 


在 本 章 中 ， 我 们 首先 通过 计算 图 及 其 展开 知 着 了 每 个 节点 表示 在 茶 个 时 刻 t 的 状态 ， 函 数 f 
可 以 将 t 处 的 状态 映射 到 t + 1 处 的 状态 ， 而 在 有 外 部 信号 x 驱动 的 情况 下 ， 涉 及 循环 的 任何 函 
数 本 质 上 可 以 被 认为 是 一 种 循环 神经 网 络 ， 其 中 循环 神经 网 络 隐藏 单元 的 值 可 以 被 定义 〈 通 过 式 
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(6.2) ) , ， 而 且 我 们 对 于 展开 图 和 循环 图 做 了 细 分 层面 的 解读 。 

其 次 ， 对 于 RNN 的 解读 部 分 ， 我 们 详细 介绍 了 序列 数据 模型 和 数学 层面 的 内 容 ， 通 过 相关 公 
式 和 图 示 对 于 RNN 的 内 在 机 制 逐 步 进行 了 展开 和 齐 析 ， 并 在 数学 层面 进行 了 详细 解读 。 

接着 ， 我 们 介绍 了 通过 时 间 的 反 向 传播 算法 (BPTT) 。 在 这 部 分 ， 我 们 认识 了 反 向 传播 的 工 
作 原 理 、 为 什么 不 能 对 RNN 使 用 标准 反 回 传播 如何 使 用 BPTT 对 数据 进行 RNN VIZ. £r BPTT 
和 BPTT 的 局 限 性 等 ， 解 读 了 其 局 限 性 中 的 第 见 问 题 : 梯度 下 降 和 梯度 爆炸 ， 并 给 出 了 与 之 对 应 的 
解决 方法 。 

然后 , 我 们 继续 研究 RNN 的 实际 应 用 ,讨论 了 4 种 主要 类 型 的 RNN。 一 对 一 结构 用 于 诸如 文 
本 生成 、 场 景 分 类 和 视频 帧 标记 之 类 的 任务 。 多 对 一 结构 用 于 情感 分 析 ， 逐 字 处 理 句 子 /短语 《与 
单一 处 理 完 整 句 子 相 比 ) 。 一 对 多 结构 在 图 像 字幕 任务 中 很 币 见 ， 将 单个 图 像 映 射 到 描述 图 像 的 任 
意 长 句子 短语 。 利 用 多 对 多 结构 进行 机 咒 翻 译 任务 。 

接 下 来 ， 我 们 介绍 了 一 个 有 趣 的 RNN 应 用 一 一 文本 生成 。 我 们 使 用 童话 语料库 来 训练 RNN， 
特别 是 将 故事 中 的 文本 打破 为 bigrams〈 一 个 二 元 组 包含 两 个 字符 ) 。 我 们 通过 给 出 一 组 从 故事 中 
选择 的 二 元 组 作为 输入 和 随后 的 双 字 母 〈 来 目 输 入) 作为 输出 来 训练 RNN。 人 然后 通过 最 大 化 正确 
预测 下 一 个 二 元 组 的 准确 性 来 优化 RNN。 按照 这 个 程序 , 我 们 要 求 RNN 生成 一 个 不 同 的 故事 ， 对 
生成 的 结果 做 了 两 个 重要 的 观察 : 


e 实际 上 ， 随 着 时 间 的 推移 ， 展 开 输 入 有 助 于 更 长 时 间 地 保持 记忆 。 
e 即使 展开 ，RNN 也 只 能 存储 有 限 数 量 的 长 期 记忆 。 


因此 ， 我 们 研究 了 一 种 能 够 捕获 更 长 记忆 的 RNN 变 体 ， 被 称 为 RNN-CF。 RNN-CF 具有 两 个 
不 同 的 层 : 隐藏 层 (在 简单 RNN 中 找到 的 传统 隐藏 层 ) 和 上 下 文 层 (用 于 持久 记忆 、 长 期 记忆 ) 。 
我 们 看 到 ， 当 与 小 数据 集 一 起 使 用 时 ， 使 用 这 个 额外 的 上 下 文 层 并 没有 明显 的 帮助 ， 因 为 在 RNN 
中 有 一 个 相当 复杂 的 隐藏 层 ， 但 是 当 使 用 更 多 数据 时 ， 它 产生 了 稍 好 的 结果 。 

在 下 一 章 中 ， 我 们 将 讨论 一 种 更 强大 的 RNN 模型 ， 被 称 为 长 短期 记忆 (LSTM) 网 络 ， 可 进 
一 步 减少 梯度 消失 的 不 利 影响 ， 从 而 产生 更 好 的 结果 。 


长 短期 记忆 


在 上 一 章 中 ， 我 们 介绍 了 循环 神经 网 络 ， 了 解 到 在 训练 RNN 时 可 能 会 遇 到 梯度 不 稳定 〈 消 失 
和 爆炸 ) 的 问题 ， 导 致 我 们 的 神经 网 络 学 到 的 东西 不 符合 预期 要 求 。 然 而 幸运 的 是 ， 我 们 可 以 引入 
一 个 称 为 长 短期 记忆 (Long Short-Term Memory, LSTM) 的 块 (Block， 也 称 为 Cell， 即 “细胞 ”) 
进入 RNN 中 ,LSTM 由 Sepp Hochreiter 和 JürgenSchmidhuber F 1997 年 提出 ,并 于 2000 年 由 Felix 
Gers 的 团队 进行 了 改进 ， 它 属于 RNN 的 一 种 改进 类 型 ， 非 常 适合 处 理 时 间 序 列 数 据 。 这 种 类 型 的 
神经 网 络 最 近 在 深度 学 习 的 背景 下 被 重新 发 现 , 因为 它 没 有 梯度 消失 的 问题 , 并 提供 了 出 色 的 结果 
和 性 能 。 基 于 LSTM 的 网 络 是 时 间 序 列 预 测 和 分 类 的 理想 选择 ， 并 且 正 在 取代 许多 传统 的 深度 学 
2]Jjik. 

由 于 梯度 消失 会 阻止 模型 学 习 的 长 期 依赖 性 , 而 在 时 间 序 列 中 的 重要 事件 之 间 可 能 存在 未 知 持 
续 时 间 的 清 后 , 面 对 这 种 困境 , 我 们 对 LSTM 进行 了 精心 设计 , 能 够 避免 之 前 的 梯度 不 稳定 问题 ， 
使 得 LSTM 能 够 存储 比 普 通 RNN 更 长 的 记忆 ( 数 百 个 时 间 步 长 ，》。 在 模型 训练 中 ，RNN 仅 保 持 
单个 隐藏 状态 ， 而 LSTM 具有 更 多 的 参数 ， 可 以 做 到 该 存储 的 存储 、 该 丢弃 的 丢弃 ， 而 RNN 却 无 
法 决定 存储 哪些 信息 以 及 丢弃 哪些 信息 , 因为 在 每 个 训练 步骤 中 都 强制 要 更 新 隐藏 状态 。 对 于 间 隐 
长 度 的 相对 不 敏感 性 是 LSTM 相对 于 RNN、 隐 马尔 可 夫 模 型 和 其 他 序列 学 习 模 型 在 许多 应 用 中 的 
优势 所 在 ， 这 种 优势 尤其 在 海量 数据 样本 的 可 用 性 上 已 经 得 到 很 好 的 验证 , 在 许多 序列 任务 (例如 
语言 建 模 、 股 票 预测 、 机 器 翻译 等 ) 上 都 有 优异 的 表现 。 

本 章 中 将 首先 介绍 LSTM 对 长 期 依赖 性 如 何 进行 存储 《或 称 为 记忆 ) 。 其 次 ， 对 于 LSTM 的 
数学 基础 框架 进行 解读 ， 并 用 一 个 小 示例 加 以 细 化 解释 。 然 后 介绍 专门 为 改进 标准 LSTM 产生 预 
测 而 引入 的 几 种 技术 ， 还 将 介绍 双向 LSTM 模型 。 最 后 讨论 LSTM 的 两 个 著名 变 体 : Peephole 连 
接 和 门 控 循 环 单元 (GRU) 。 
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7.1 LSTM fS 


LSTM 本 质 上 是 一 种 更 高 级 的 RNN， 可 以 学 习 长 期 依赖 信息 ， 在 解决 很 多 问题 上 都 表现 了 优 
异 的 性 能 ， 这 与 它 的 内 部 结构 有 很 大 的 关系 ， 其 整体 结构 图 如 图 7-1 所 示 。 
output 
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7-1 LSTM 整体 结构 


由 图 7-1 "fA, LSTM 的 整体 结构 如 下 : 
(1) 5 个 主要 构件 ， 分 别 如 下 。 


(细胞 状态 (Cell State) : LSTM 细胞 的 内 部 状态 (记忆) 。 

DIRA (Hidden State) : 用 于 计算 预测 的 外 部 隐藏 状态 。 

(X, AXI] Input Gate) : 决定 了 当前 输入 被 读 入 细胞 状态 的 程度 。 

Olim] (Forget Gate) : 确定 了 将 先前 的 细胞 状态 发 送 到 当前 细胞 状态 的 程度 。 
输出 门 COutput Gate) : 决定 了 将 多 少 细胞 状态 输出 到 隐藏 状态 。 


(2) 特殊 的 神经 元 结构 ， 包 含 4 个 Input (3 个 Gate 控制 信号 以 及 输入 数据 〉 和 1 个 Output. 

(3) 激活 函数 通常 选用 Sigmoid 函数 GEY Logistic 函数 ) ， 个 别 使 用 tanh 函数 。Sigmoid 
激活 函数 用 于 将 输出 压缩 到 0 和 1 之 间 ， 用 于 表示 Gate 的 打开 程度 。 

为 了 方便 介绍 LSTM 的 细胞 架构 ， 这 里 给 出 LSTM 中 数据 流 的 抽象 图 ， 如 图 7-2 所 示 。 
正如 图 7-2 中 所 示 ， 细 胞 将 输出 某 个 状态 ， 该 状态 依赖 于 〈 具 有 非 线性 激活 函数 ) 之 前 的 状态 和 当 
前 的 和 输入。 但是， 在 RNN 中 ,细胞 状态 总 是 随 着 接 下 来 的 每 个 输入 而 变动 的 ， 这 种 现象 的 存在 对 
于 存储 长 期 依赖 性 是 非常 不 利 的 。 

这 里 需要 强调 的 是 , LSTM 可 以 决定 何 时 奉 换 、 更 新 或 遗忘 存储 在 细胞 状态 中 的 每 个 神经 元 内 
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的 信息 。 换 句 话 说 ， 如 果 有 需要 的 话 ，LSTM 本 喘 其 实 存在 一 种 机 制 〈 其 实 就 是 门 控 机 制 ) 来 保持 
细胞 状态 不 变 ， 使 它们 能 够 存储 长 期 依赖 性 一 一 即 保持 长 期 记忆 。 

LSTM 拥有 细胞 需要 执行 每 个 操作 的 各 类 门 (Gate〉， 而 这 些 门 的 打开 程度 在 0 和 1 之 间 ( 通 
TJE Sigmoid KZO 是 连续 的 ， 其 中 0 表示 该 门 处 于 闭合 状态 ， 没 有 信息 流 可 以 通过 该 门 ，1 表示 
该 门 处 于 打开 状态 ， 所 有 信息 都 可 以 通过 该 门 。LSTM 的 这 些 功能 体现 在 图 7-2 中 。 每 个 门 决定 各 
种 数据 (例如 当前 输入 状态 、 先 前 隐藏 状态 或 先前 的 细胞 状态 ) 有 多 少 流入 状态 (最 终 隐藏 状态 或 
细胞 状态 ) ,每 条 线 的 粗细 表示 从 该 门 流出 的 信息 量 大 小 。 例如， 输入 门 相 比 于 先前 最 终 隐藏 状态 
更 喜欢 允许 更 多 的 当前 输入 通过 , 而 遗 扎 门 则 更 喜欢 让 更 多 的 先前 最 终 隐 藏 状态 而 不 是 当前 输入 通 


过 。 
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7-2 LSTM 细胞 中 数据 流 的 抽象 图 


7.2 LSTM 工作 原理 详解 


本 节 介 绍 LSTM 运作 的 基本 原理 。 由 7.1 节 我 们 知道 ， LSTM 网 络 由 彼此 连接 的 细胞 组 成 ， 且 
每 个 LSTM 细胞 包含 三 种 类 型 的 门 : 输入 门 、 遗 筷 门 和 输出 门 ， 它 们 分 别 实现 对 细胞 存储 器 的 写 
入 、 复 位 (或 称 为 重 置 ) 和 读 取 功能 。 这 些 门 不 是 二 进 制 的 ， 而 是 模拟 的 (通常 由 映射 在 [0,1] 范 围 
内 的 Sigmoid 激活 函数 管理 , 其 中 0 表示 总 抑制 , 1 表示 总 激活 ) o LSTM 细胞 管理 两 个 状态 向 量 : 
细胞 状态 和 隐藏 状态 ， 出 于 性 能 原因 ， 它 们 默认 保持 独立 。 当 然 ， 在 具体 操作 中 也 可 以 通过 在 创建 
BasicLSTMCell 时 设置 state is tuple = False 来 更 改 此 默认 行为 。 图 7-3 提供 了 有 具有 单个 状态 单元 的 
LSTM 细胞 块 的 图 示 。LSTM 网 络 的 形成 与 简单 的 RNN 是 一 致 的 ， 只 是 隐藏 层 中 的 非 线性 单元 被 
存储 器 块 替 换 。 此 外 ， 与 其 他 RNN 一 样 ， 隐 藏 层 可 以 附加 到 任何 类 型 的 可 微分 输出 层 ， 有 具体 取决 
于 所 需 的 任务 〈 回 归 、 分 类 等 ) 。 
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NET OUTPUT 


OUTPUT GATE 


NET INPUT 


7-3. 具有 一 个 状态 单元 的 LSTM 细胞 块 图 示 


在 图 7-3 中 ， 通 过 设 定 权重 值 为 固定 〈1.0) 以 重复 连接 来 维持 内 部 细胞 状态 。 三 个 门 从 块 的 
内 部 和 外 部 收集 激活 情况 ， 并 通过 乘法 单元 〈 小 圆圈 ) 控制 细胞 状态 。 输 入 门 和 输出 门 控制 细胞 数 
据 流 的 输入 和 和 输出 程度 ， 而 遗 筷 门 控制 内 部 细胞 状态 。 细 胞 输入 和 输出 激活 函数 Cg 和 h) 应 用 于 
指定 位 置 。 实 际 上 ， 多 数 情 况 下 该 目 循 环 的 权重 值 会 视 上 下 文 情况 而 产生 变动 。 

设想 一 下 ， 日 前 生活 中 可 拆 装 的 汽车 玩具 ， 在 组 装 汽车 的 过 程 中 ,每 个 时 间 步 骤 中 都 会 面临 以 
下 状况 : 

COD 手头 有 的 汽车 部 件 。 

(2) 回忆 或 询问 劳 人 汽车 组 装 好 后 完整 的 结构 图 样 。 

(3) 汇集 A) M O) 中 的 信息 ， 决 定 将 当前 的 部 件 组 装 到 哪个 位 置 。 


这 种 生活 中 遇 到 的 场景 与 我 们 的 LSTM 的 工作 原理 其 实 很 相似 ， 比 如 (1) 中 你 拥有 的 汽车 部 
件 就 是 当前 的 外 部 输入 xt; (0D 中 其 实 就 是 调 入 之 前 的 记忆 /信息 ; (3) 中 就 是 汇集 外 部 输入 和 xx 
之 前 的 记忆 来 决定 输出 的 结果 (yt〉。 下 面 我 们 通过 一 个 具体 的 例子 对 LSTM 内 在 逻辑 进行 解读 。 

首先 ， 假 设 这 里 有 一 个 句子 : 

John gave Mary a puppy. 

我 们 输出 的 内 容 应 该 是 John, Mary 和 puppy。 这 时 假设 LSTM 在 上 面 给 定 的 句子 后 需要 输出 
两 个 句子 : 

John gave Mary a puppy. 

那么 后 面 的 两 个 句子 可 能 是 : 


It barks very loudly. They named it Luna. 
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虽然 我 们 的 LSTM 模型 还 远 未 输出 诸如 此 类 的 实际 短语 ， 但 是 可 以 学 习 这 些 名 词 和 代词 之 间 
的 关系 。 例 如 ，It 与 puppy fi. They 与 John Ñ Mary EX. £n. It 应 该 学 习 名 词 /代词 和 动 
词 之 间 的 关系 。 例 如 ， 对 于 It， 动 词 最 后 应 该 有 一 个 s。 对 于 这 些 情况 ， 我 们 结合 例句 给 出 了 这 些 
单词 间 的 依赖 关系 ， 如 图 7-4 所 示 。 我 们 看 到 短语 中 的 长 期 记忆 (例如 Luna 一 puppy〉 和 短期 记忆 
(例如 It 一 barks〉 的 依赖 关系 ， 实 线 币 头 代表 名 词 和 代词 之 间 的 联系 ， 虚 线 篆 头 显示 了 名 词 /代词 
和 动词 之 间 的 联系 。 


John gave Mary a i| 


It barks very loudly. 
A 


® a They named it Luna. 
， A 
, 


图 7-4 例句 中 各 单词 之 间 的 各 种 关系 图 
接 下 来 ， 我 们 将 通过 这 些 内 部 具体 操作 来 建立 单词 间 的 各 种 关系 ， 以 便 输 出 合理 的 句子 文本 。 


7.2.1 梯度 信息 如 何 无 损失 传递 


如 何 让 梯度 随 看 时 间 的 流动 不 发 生 指 数 级 消失 或 者 爆炸 ， 这 是 摊 在 我 们 面前 的 一 个 重要 问题 。 
数学 上 , 无论 对 1 做 多 少 次 方 的 运算 结果 还 是 1 , 如果 我 们 得 到 的 梯度 恒 为 1 ,貌似 问题 就 解决 了 。 
这 时 ， 我 们 就 可 以 对 长 时 记忆 细胞 c 的 数学 模型 进行 设计 ， 大 概 样 子 如 下 : 


Ct = C(t-1) 


这 时 ,误差 反问 传播 时 的 导数 就 是 恒定 的 ( 即 为 1 ) ,误差 可 以 一 路 无 损耗 地 疝 前 传播 直到 网 
络 起 始 端 。 也 就 是 说 ， 我 们 可 以 学 习 到 神经 网 络 前 闯 与 末端 的 依赖 性 。 
束 像 汽车 运输 一 样 ， 运 输 路 线 畅 通 了 。 接 下 来 我 们 对 数据 的 装载 和 最 载 进行 处 理 。 


7.2.2 将 信息 装载 入 长 时 记忆 细胞 


由 前 和 面 得 知 , 输入 门 认 将 当前 输入 xt 和 前 一 个 最 终 隐藏 状态 hee_i) 作 为 输入 并 计算 it， 具体 如 下 : 
lr = o (Wiix)Xt + Winyh (t1) T bi) (7.1) 
iX Ho(x) = aC» 


输入 门 可 以 理解 为 在 具有 Sigmoid 激活 函数 的 单 隐藏 层 〈 标 准 RNN 上 的 隐藏 层 ) 处 执行 的 计 
算 。 标 准 RNN 的 隐藏 层 状态 心计 算 公式 如 下 ; 


h, = tanh(Ux, 十 Whg- 5) (7.2) 
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我 们 发 现 除了 激活 函数 不 同和 增加 偏差 之 外 ，LSTM 中 的 输入 门 记 和 标准 RNN 的 隐藏 状态 hi 在 
计算 上 很 相似 。 由 上 面 的 内 容 我 们 得 知 ， 对 于 输入 门 记 计算 的 结果 ， 如 果 值 为 1， 就 意味 着 当前 输入 
的 所 有 信息 将 被 传递 到 细胞 状态 ， 如 果 值 为 0， 就 意味 着 当前 输入 的 信息 均 不 能 被 传递 到 细胞 状态 。 

接 下 来 ， 我 们 要 给 出 由 tah 层 创建 的 一 个 候选 项 回 量 ， 记 为 Gt:， 该 同 量 将 会 被 添加 以 便 稍 后 
能 够 计算 当前 细胞 状态 。 


€t = tanh(Wicx)Xt + Ween hee-1) 十 b.) (7.3) 


至 此 ， 涉 及 的 计算 都 可 以 在 图 7-5 中 看 到 。 


INMEE 
a 


图 7-5 LSTM 中 涉及 的 所 有 计算 (灰色 显示 ) ， 其 中 的 计算 计 和 以 黑色 显示 


而 在 示例 中 , 在 学 习 的 最 初 阶段 , 输入 门 需要 高 度 激活 。 LSTM 输出 的 第 一 个 词 就 是 it。 为 此 ， 
LSTM 必须 知道 puppy 也 被 称 为 t。 假 设 LSTM 由 5 个 神经 元 来 存储 状态 。 我 们 希望 LSTM 存储 
it 所 指 的 是 puppy 信息 ， 也 希望 LSTM 学 习 的 另 一 条 信息 〈 在 不 同 的 神经 元 中 ) 是 当 使 用 的 主语 是 
it 时 ， 其 对 应 动词 的 时 态 应 该 在 词 末 尾 有 一 个 s。 LSTM 需要 知道 的 另 一 件 事 是 小 狗 (puppy) 可 
以 大 声 (loudly) BR (barks) 。 图 7-6 说 明了 LSTM 如 何在 其 细胞 状态 中 对 这 些 信息 进行 编码 处 理 ， 
每 个 圆圈 代表 细胞 状态 的 单个 神经 元 〈 隐 藏 单 元 ) 。 


It -> Puppy Current Verb for ^ ^ barks->loudly 
subject (i.e. current 
"it") subject (i.e. 
"barks") 


7-6 该 细胞 状态 对 这 些 信息 进行 编码 并 输出 第 一 个 句子 的 信息 
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同时 我 们 输出 第 一 个 新 句子 ， 如 下 : 


John gave Mary a puppy. It barks very loudly. 


7.2.3 更 新 细胞 状态 可 能 产生 的 问题 及 解决 方案 


目前 例子 中 的 样本 信息 量 很 小 ,对 于 和 输入 门 影 啊 不 大 ,但 现实 中 样本 数据 量 都 很 大 ， 如 果 输 入 
状态 处 于 打开 状态 ， 试 图 记 住所 有 的 信息 会 产生 不 利 的 结果 : 状态 c 的 值 会 变 得 很 大 。 因 为 神经 网 
络 在 输出 时 需要 把 c 激活 ， 而 当 c 变 得 非常 大 时 ， 像 sigmoid、tanh 这 些 和 常见 的 激活 函数 的 输出 束 
会 完全 饱和 ， 比 如 图 7-7 给 出 的 tanh 激活 函数 。 


1.0 


图 7-7 tanh 激活 函数 

Ub c 的 容量 巨大 时 ，tanh 曲线 趋 近 于 1， 这 时 c 再 增加 也 没有 什么 意义 ， 因 为 已 经 处 于 饱和 状 
态 , 不 可 能 再 装载 更 多 信息 。 我 们 前 面 提 到 的 遗 态 门 就 是 专门 为 解决 此 类 问题 而 设计 的 ,可 以 派 上 
用 场 了 : 每 个 时 刻 传递 过 来 的 信息 ， 需 要 通过 遗 态 门 丢 弃 一 些 不 需要 的 信息 ， 当 然 会 记 住 一 些 需 要 
的 信息 ， 这 就 可 以 防止 上 面 提 到 的 状态 饱和 问题 。 遗 态 门 的 计算 公式 如 下 : 

f: = o(Wefx)Xt + W. rnt t4) 十 br) (7.4) 

ix Ho (x) 一 TZ 

IB SEA AS HPS Nf R KAATU PRSE: 

e 道 忘 门 的 值 为 0 意味 着 它 将 不 会 传递 来 自 c(_1) 的 信息 来 更 新 ci。 

e 遗忘 门 的 值 为 1 意味 着 它 将 传递 来 自 c(t_1) 的 所 有 信息 来 更 新 ci。 

接 下 来 ， 我 们 将 看 到 遗 筷 门 如 何 帮助 我 们 预测 下 一 人 句 : 

They named it Luna. 

这 时 可 以 看 到 ， 我 们 正在 寻找 的 新 关系 是 约 朝 (John〉 和 玛丽 (Mary〉 以 及 他 们 (They) 之 
间 的 关系 。 因 此 ， 我 们 不 再 需要 有 关 主 语 它 (It) 的 信息 以 及 动词 barks 的 行为 ， 因 为 主语 是 约翰 
(John) 和 玛丽 (Mary) 。 我 们 通过 遗 筷 门 用 当前 主语 (They) 和 其 对 应 动词 (named) REF 


第 7 章 长 短期 记忆 | 197 


储 在 当前 神经 元 中 的 主语 和 对 应 的 动词 信息 ， 有 具体 如 图 7-8 所 示 。 


It -> Puppy Current Verb for barks-»loudly 
subject (i.e. current 
"they") subject (i.e. 
"named") 


7-8 左边 起 第 二 和 第 三 个 神经 元 的 信息 (Gt-barks) 被 新 信息 (They—named) 所 取代 


就 涉及 输入 门 和 遗忘 门 的 权重 值 而 言 ， 图 7-9 中 说 明了 这 些 转变 过 程 。 我 们 不 会 改变 维持 
It 一 puppy 这 种 关系 的 神经 元 的 状态 ， 因 为 puppy 在 最 后 一 句 中 显示 为 一 个 被 操作 对 象 。 这 是 通过 
设置 将 It 一 puppy 从 cce-y) 连 接 到 ct 的 权重 值 设置 为 1 来 完成 的 。 然 后 我 们 将 用 新 的 主语 和 动词 来 
更 新 维持 当前 主语 和 当前 动词 信息 的 神经 元 信息 。 这 是 通过 将 该 神经 元 的 遗忘 权 重 值 设置 为 0 来 
实现 的 。 接 着 ,我 们 将 当前 主语 和 动词 连接 到 相应 神经 元 状态 的 权重 值 i 设置 为 1 ， 我 们 可 以 将 各 
视 为 哪些 新 信息 (例如 来 自 当 前 输入 x 的 新 信息 〉 应 该 被 带 进 细 胞 状态 的 实体 中 。 


Xs p BOR 
( ) 


bark- 
>loud C, t 一 1) 


7-9 用 先前 状态 ce-D 和 候选 项 6 来 计算 细胞 状态 ct 
当前 细胞 状态 将 更 新 如 下 : 
Ct = fcce-1) + d (7.5) 
换 句 话说 ， 当 前 状态 是 以 下 的 组 合 : 


@ 前 一 个 细胞 状态 这 忘 / 记 住 哪些 信息 。 
e 要 添加 /丢弃 当前 输入 的 信息 。 


图 7-10 显示 了 当前 在 LSTM 中 进行 的 所 有 计算 的 内 容 。 
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7-10 ”当前 在 进行 的 所 有 计算 的 内 容 (i,,ft,Gt,ct) 
在 学 习 之 后 ， 完 整 的 细胞 状态 如 图 7-11 所 示 。 


It -> Puppy Current Verb for barks-»loudly They -> John 
subject (i.e. current and Mary 
"they") subject (i.e. 
"named") 


图 7-11 输出 两 个 句子 后 ， 完 整 的 细胞 状态 图 
接 下 来 ， 我 们 将 看 看 如 何 计算 LSTM 细胞 的 最 终 状态 (he): 
Ot — o(Wiox)Xt + W(onyh(t-1) + bo) (7.6) 
h, = o,tanh(c,) (7.7) 
在 示例 中 ， 需 要 输出 以 下 句子 : 
They named it Luna. 
为 此 ， 我 们 不 需要 倒数 第 二 个 神经 元 来 计算 这 个 句子 ， 因 为 它 包 含有 关 小 狗 (puppy) wmit 
(barks) 的 信息 ， 而 这 句 话 是 关于 小 狗 (puppy) 名字 的 。 这 么 看 来 ， 在 最 后 一 句 的 预测 中 就 可 以 
忽略 最 后 一 个 神经 元 (含有 barks 一 loudly 的 关系 )。 这 正 是 ot 所 做 的 ， 它 将 忽略 不 必要 的 记忆 信 
思 ， 而 仅 在 计算 LSTM 细胞 的 最 终 输 出 时 从 细胞 状态 检索 相关 的 记忆 信息 。 图 7-12 给 出 了 LSTM 
细胞 内 部 的 逻辑 。 
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7-12 ”完整 的 LSTM 细胞 的 内 部 逻辑 图 
在 这 里 ， 我 们 总 结 一 下 在 LSTM 细胞 内 部 发 生 操 作 的 所 有 相关 方程 式 。 
it = o(Weix)Xe + Wein)hees) + bi) 
ct = tanh(W(cox; + Weenyhees) + bc) 
ft = 9(Wigyxt + Wegny hi4) + br) 
ct = frC(g3) + leet 
Ot, —90 (Womxr 十 Woon)hee-1) t b,) 


h, 一 Ot tanh (cr) 


7.2.4 LSTM 模型 输出 


现在 从 更 宽 的 角度 来 看 一 下 关于 学 习 序列 样本 数据 的 问题 。 将 LSTM 细胞 随时 间 变 化 展开 ， 
以 便 展示 这 些 细胞 是 如 何 连 接 在 一 起 的 , 从 而 挖掘 出 这 些 细胞 接收 先前 的 状态 后 去 计算 下 一 个 细胞 
状态 ， 如 图 7-13 所 示 。 


LSTM Cell 一 Cell em Cell -一 LLLI 


图 7-13 LSTM 细胞 随时 间 变 化 的 连接 图 
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但 是 实际 上 ,这 些 还 不 足以 做 一 些 有 用 的 工作 。 正 如 我 们 所 看 到 的 那样 ， 即 使 可 以 创建 一 个 真 
正 能 够 对 序列 数据 进行 建 模 的 LSTM 链 ， 我 们 仍然 无 法 进行 输出 或 预测 ， 而 倘 奋 想 要 使 用 LSTM 
实际 学 到 的 信息 ， 我 们 需要 一 种 能 够 从 LSTM 细胞 中 抽取 最 终 输出 信息 的 方法 。 因 此 ， 我 们 将 在 
LSTM 顶部 固定 一 个 softmax 层 〈 包 含 权 重 值 Ws 和 偏差 b;〉 ， 最 终 的 输出 可 以 由 以 下 等 式 获得 : 
y, = softmax(W;h, + bs) (7.8) 


现在 ， 带 有 softmax 层 的 LSTM 的 最 终 图 像 如 图 7-14 所 示 。 


7-14 带 有 softmax 层 的 LSTM 随时 间 变 化 图 
73 LSTM 与 标准 RNN 的 区 别 


本 节 将 要 对 LSTM 与 标准 RNN 进行 比较 分 析 。 实 际 上 ， 与 标准 RNN 相 比 ，LSTM 具有 更 复 
杂 的 结构 。 主 要 区 别 之 一 是 LSTM 具有 两 种 不 同 的 状态 : 细胞 状态 cc 和 最 终 隐 藏 状态 ， 而 RNN fX. 
具有 单个 隐藏 状态 。 另 一 个 主要 区 别 在 于 ， 由 于 LSTM 具有 三 个 不 同 的 门 Gate) ， 因 此 当 计 算 
最 终 隐藏 状态 时 ，LSTM 对 如 何 处 理 当 前 输入 和 先前 的 细胞 状态 具有 更 多 的 控制 空间 。 

LSTM 上 自 带 的 这 两 种 不 同 的 状态 是 非常 具有 竞争 力 的 ,起 初 ,LSTM 模型 的 核心 贡献 (Hochreiter 
和 Schmidhuber, 1997) 是 引入 自 循 环 的 绝妙 想法 ， 以 便 产生 梯度 长 时 间 不 间断 流动 的 路 线 。 这 里 
的 一 个 关键 性 突破 就 是 自 循环 的 权重 值 视 上 下 文 情况 而 定 ， 而 不 是 固定 的 (Gerset 55, 2000) 。 门 
控 这 个 自 循环 〈 由 另 一 个 隐藏 单元 控制 ) 的 权重 值 累 积 的 时 间 尺 度 可 以 产生 动态 变化 ， 此 时 即便 
LSTM 的 参数 是 固定 的 ， 累 积 的 时 间 尺 度 也 能 够 因 输入 序列 而 发 生变 化 , 这 是 由 于 时 间 常 数 是 模型 
本 身 的 输出 。 由 此 可 见 ，LSTM 这 种 机 制 的 存在 ， 即 使 细胞 状态 发 生 快 速 变化 ， 最 终 隐藏 状态 仍 将 
变动 得 更 缓慢 。 因 此 ， 虽 然 细 胞 状态 正在 学 习 短期 和 长 期 依赖 性 ,但 最 终 隐 藏 状态 可 以 仅 反映 短期 
依赖 性 或 仅 反 映 长 期 依赖 性 或 两 者 都 反映 。 

由 此 可 见 ，LSTM 是 一 个 原则 性 更 强 的 方法 (特别 是 与 标准 RNN 相 比 ) ， 因 为 它 可 以 更 加 自 
信 地 控制 当前 输入 和 之 前 细胞 状态 对 当前 细胞 状态 的 贡献 程度 。 此 外 , 输出 门 可 以 更 好 地 控制 细胞 
状态 对 最 终 隐 藏 状态 的 贡献 程度 。 在 图 7-15 中 ， 我 们 给 出 了 标准 RNN 和 LSTM 的 比较 示意 图 ， 
显示 出 两 个 模型 之 间 的 差异 。 

综 上 所 述 ， 通 过 设计 和 维持 两 种 不 同 的 状态 ，LSTM 可 以 学 习 短 斯 和 长 期 依赖 关系 ,这 有 助 于 
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解决 梯度 消失 的 问题 ， 我 们 将 在 下 一 节 中 讨论 。 


7-15 二 者 对 比 图 示 : 左 侧 为 RNN， 右 侧 为 一 个 LSTM 细胞 


7.4 LSTM 如 何 避 免 梯度 消失 和 梯度 爆炸 问题 


正如 我 们 前 和 面 所 讨论 的 ， 即 使 RNN 在 理论 上 是 合理 的 ， 但 在 实践 中 它们 也 存在 严重 的 缺陷 。 
也 就 是 说 ， 当 使 用 通过 时 间 反 回 传 播 COBPTTO 时 ， 梯 度 会 迅速 减 小 ， 这 使 我 们 只 能 传播 几 个 时 间 
步 长 的 信息 。 这样 一 来 , 我 们 只 能 存储 极 少时 间 步 长 的 信息 ， 进 而 只 能 拥有 短期 记忆 。 这 反 过 来 限 
制 了 RNN 在 实际 序列 任务 中 的 应 用 性 。 

通常 有 用 且 有 趣 的 序列 工作 任务 (例如 股票 市 场 预 测 或 语言 建 模 ) 需要 具有 学 习 和 存储 长 期 依 
赖 关 系 的 能 力 。 以 下 示例 用 于 预测 下 一 个 单词 : 


John is a talented student. He is an A-grade student and plays rugby and cricket. 


All the other students envy 


对 我 们 来 说 ， 这 是 一 项 非常 容易 的 任务 。 答 案 是 约翰 John) 。 但 是 ， 对 于 RNN 来 说 ， 这 是 
一 项 艰巨 的 任务 。 我 们 试图 预测 一 个 答案 ,该 答案 位 于 文本 的 开头 。 此 外 ,为 了 解决 这 个 任务 , 我 
们 需要 一 种 在 RNN 状态 下 存储 长 期 依赖 关系 的 方法 。 这 正 是 LSTM 由 在 解决 的 任务 类 型 。 

在 第 6 章 的 循环 神经 网 络 中 ， 我 们 讨论 了 如 何在 没有 任何 非 线性 函数 的 情况 下 出 现 梯度 消失 / 
爆炸 。 我 们 现在 将 看 到 ， 即 使 存在 非 线性 项 ， 它 仍然 可 能 发 生 。 为 此 ， 我 们 将 看 到 导数 项 3 如 
何 用 于 标准 RNN 和 LSTM (LSTM [1/575 网 络 。 正 如 我 们 在 第 6 章 中 所 学 到 的 ， 这 是 导致 梯 
度 消 失 的 关键 项 。 

假设 标准 RNN 的 隐藏 状态 计算 如 下 : 

h, = o(Wex, + Wyhg 4) 


为 了 简化 计算 ， 我 们 可 以 忽略 当前 与 输入 相关 的 项 ， 并 将 重点 放 在 循环 部 分 ， 这 将 给 出 以 下 等 
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式 : 
hi = 0 (Wihgt-1)) 


如 果 我 们 计算 前 面 的 -2 项， 将 得 到 以 下 结果 : 


9h(t_k) 


oh; 


k-i 
—— — [| Who (Wy ht 4. iy)(1 —8 (Wyhg ik .i))) 
hetk) io 


=W% ams o(Wyh "m (1 一 o(Wsha 4o) 


现在 让 我 们 看 看 AW ht iy 0 SWR ht ei)? 0 时 会 发 生 什么 。 在 这 两 种 情况 下 ， d 
开始 接近 0， 从 而 发 生 梯度 消失 。 当 Wihee_k4j= 0 时， 对 于 Sigmoid 激活 函数 而 言 ， 梯 度 是 最 大 的 
(0.25) ， 当 乘 以 多 个 时 间 步 长 时 ， 整 体 梯度 变 得 非常 小 。 此 外 ，Wz 项 〈 可 能 由 于 初始 化 不 合理 ) 
也 会 导致 梯度 爆炸 或 消失 。 然 而 ， 与 由 Wihhee_g4i)<< 0 或 Whhee_kti>> 0 而 导致 的 梯度 消失 相 比 ， 

由 Ww 项 引起 的 梯度 消失 /爆炸 相对 容易 解决 (认真 合理 初始 化 权重 值 和 进行 梯度 裁剪 ) 。 
现在 让 我 们 看 一 下 细胞 状态 ， 由 下 式 给 出 : 
Cr 一 ftC(t-1) + ie 


这 是 LSTM 中 发 生 的 所 有 遗忘 门 应 用 的 产物 。 但 是 , 如 果 以 类 似 的 方式 为 LSTM iT Cla 
略 Wrxxt 项 和 by， 因 为 它们 是 非 循环 的 ) ， 将 得 到 以 下 结果 : 


Qc, 
ÜC(t—k) 


k-i 
E g o(Wfnhet-k+i)) 

i=0 

在 这 种 情况 下 ， 如 果 IWhe_ksp<< 0， 那 么 梯度 将 消失 ， 另 一 方面 ， 如 果 Wihe_x4)>> 0 WA 
导数 将 比 标准 RNN 中 的 变动 速度 慢 得 多 。 此 外 ， 当 使 用 压缩 函数 时 ， 由 于 5 e_ 很 大 《梯度 爆炸 


cq 
期 间 可 能 发 生 的 事情 )， 梯度 不 会 爆炸 。 此 外 , Ws hono 0 时 , 我 们 得 到 接近 1 的 最 大 梯度 ， 
这 意味 着 梯度 不 会 像 我 们 在 RNN 中 看 到 的 那样 迅速 减 小 〈 当 梯度 达到 最 大 值 时 ) 。 最 后 ， 在 推导 
中 没有 诸如 Wx 之 类 的 项 。 然 而 ， 对 于 we 的 推导 更 为 棘手 。 让 我 们 看 看 这 些 项 是 否 存在 于 ee 
的 推导 中 。 如 果 我 们 计算 出 它 的 这 些 推导 ， 将 得 到 以 下 的 式 子 : 
Oh, ^ O(o,tanh(c,)) 
Ohe- Phe- 


一 旦 解决 了 这 个 问题 ， 我 们 就 会 得 到 这 样 的 形式 .: 


tanh(.)o()[1 — o(.)]won + o(.)[1 — tanh? (.)] (ce-o ()[1 — oC wn + oC [1 — tanh()?]was 
+ tanh(.)o(.)[1 — o(.)]Win) 


我 们 不 关心 o(.) 或 tanh (.) 内 的 内 容 ， 因 为 无 论 是 什么 值 ， 它 都 将 在 (0,1) 或 (-1,1) 的 范围 
之 内 。 如 果 我 们 用 一 些 常 见 的 符号 (比如 Yy(.)) RË o.) [1-0 (.)] 、tanh(.) 和 [1-tanh (. )^2] 
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项 ， 将 得 到 如 下 式 子 : 
y()wopn 十 Yy()[cccDYyGC)wPn + Y C)wen + YC)win] 
或 者 得 到 以 下 结果 (假设 外 部 y(. ) 被 方 插 号 内 的 每 个 y(. ) 项 吸收 ) : 


Y C )Won t C(c-1)Y C. )Wrn m yc. )Wcn t Y C )Win 


这 将 给 出 以 下 内 容 : 
k-1 
Qh, 
Oh(e_x) ~ ||» (- )JWon + C(t-1)Y C )Wrn + YC )Wen Y C)win 
i i=0 


I CHIC A EE EEH, 但 是 对 


重 值 时 必须 谨慎 ， 我 们 也 应 该 使 用 梯度 裁剪 。 


一 不 是 。 因 此 ， 在 初始 化 LSTM 的 权 


ah 


尽管 如 此 ， 梯 度 消 失 的 稳定 性 对 于 LSTM 并 不 像 RNN 那样 重要 。 因 为 cr 仍然 可 以 存储 长 
期 依赖 性 而 不 受 梯度 消失 的 影响 ， 并 且 如 果 需 要 ， 几 可 以 从 ci 处 检索 长 期 依赖 性 。 


7.5 优化 LSTM 


正如 我 们 在 学 习 RNN 时 所 看 到 的 那样 ， 拥 有 坚实 的 理论 基础 并 不 一 定 能 保证 它们 在 实践 中 表 
现 最 佳 。 这 是 由 于 计算 机 数值 精度 的 限制 所 致 ，LSTM 也 是 如 此 。 拥 有 复杂 的 设计 ， 人 允许 更 好 地 建 
模 数 据 中 的 长 期 依赖 性 ， 这 本 身 并 不 意味 着 LSTM 将 输出 完全 准确 的 预测 。 因 此 ， 己 经 开发 了 许 
多 扩展 来 帮助 LSTM 在 预测 阶段 表现 得 更 好 。 在 这 里 ， 我 们 将 讨论 几 个 这 样 的 改进 : AEREE 
集束 搜索 、 使 用 词 癌 量 而 不 是 词 的 One-Hot 编码 表示 以 及 使 用 双 同 LSTM。 


7.5.1 贪 禁 采样 


如 果 我 们 始终 试图 以 最 高 概率 预测 词 ， LSTM 将 倾 问 于 产生 非常 单一 的 结果 。 例 如 ， 它 会 在 切 
换 到 另 一 个 单词 之 前 多 次 重复 单词 the. 

解决 这 个 问题 的 一 种 方法 是 使 用 贪 禁 采样 (Greedy Sampling) ， 我 们 从 中 选择 预测 最 佳 的 n 
和 样本 。 这 有 助 于 打破 预测 的 单一 性 。 

让 我 们 考虑 前 一 个 例子 的 第 一 句 话 : 

John gave Mary a puppy. 

我 们 从 第 一 个 单词 开始 ， 并 想 要 预测 接 下 来 的 4 个 单词 : 


John 


如 果 我 们 尝试 确定 性 地 选择 样本 ，LSTM 可 能 倾向 于 输出 如 下 内 容 : 
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John gave Mary gave John. 


但 是 ,通过 从 词汇 表 里 的 一 个 单词 子 集中 采样 下 一 个 单词 ,， LSTM 被 迫 改变 预测 并 可 能 输出 以 
下 内 容 : 


John gave Mary a puppy. 

或 者 提供 以 下 输出 : 

John gave puppy a puppy. 

但 是 ,即使 贫 禁 采样 有 助 于 为 生成 的 文本 添加 更 多 变化 , 此 方法 也 不 能 保证 输出 始终 是 真实 的 ， 


尤其 是 在 输出 较 长 的 文本 序列 时 。 接 下 来 我 们 看 一 种 更 好 的 搜索 技术 , 它 实 际 上 在 预测 之 前 的 几 个 
步骤 中 是 超前 运行 的 。 


7.5.2 集束 搜索 


集束 搜索 (Beam Search) 是 一 种 帮助 LSTM 改善 预测 质量 的 方法 。 在 此 ， 通 过 解决 搜索 问题 
找到 预测 。 集 束 搜索 的 关键 思想 是 一 次 产生 OH) 个 输出 《yz, Yer Verz- Ver) 而 不 是 单 
个 输出 yr:。 这 里 ，b 被 称 为 集束 的 长 度 ， 并 且 产 生 的 b 个 输出 被 称 为 集束 。 从 技术 上 讲 ， 我 们 选择 
有 具有 最 高 联合 概率 p(yi， (t1 J(t42) -- Y(t+b) | Xt) 的 集束 ， 而 不 是 选择 单一 项 的 最 高 概率 p(y | Xt)。 
在 进行 预测 之 前 ， 我 们 将 会 进一步 研究 未 来 ， 这 通常 会 之 来 更 好 的 结果 。 

让 我 们 通过 前 面 的 例子 来 理解 集束 搜索 : 


John gave Mary a puppy. 
这 里 ， 我 们 将 逐个 进行 单词 预测 。 最 初 我 们 有 以 下 内 容 : 


John 


假设 LSTM 使 用 集束 搜索 产生 例句 ， 那 么 每 个 单词 的 概率 可 能 就 像 图 7-16 中 的 那样 。 假 设 集 
束 长 度 b =2， 我 们 将 在 搜索 的 每 个 阶段 考虑 n=3 个 最 佳 候选 项 。 搜 索 树 如 图 7-16 所 示 。 
74 
John gave Mary à puppy 
John gave Mary a puppy John qave Mary a puppy John gave Mary a puppy 
7-16 ”集束 搜索 的 空间 结构 ， 这 里 n=3 H b=2 
我 们 从 单词 John 开始 ， 得 到 词汇 表 中 所 有 单词 的 概率 。 在 例子 中 ， 当 n=2 Ht, 我们 为 树 的 下 
一 级 选择 最 好 的 三 个 候选 项 : gave. Mary 和 puppy。 这 里 特别 说 明 ， 这 些 可 能 不 是 LSTM 实际 找 
到 的 候选 项 ， 仅 用 作 示 例 而 已 。 然 后 从 这 些 选 定 的 候选 项 中 ， 树 的 下 一 级 继续 延伸 。 在 那里 ， 搜 索 
将 重复 ， 直 至 搜索 到 树 中 的 深度 为 bp， 我 们 将 挑选 最 好 的 三 个 候选 项 。 
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图 7-16 中 给 出 了 最 高 联合 概率 的 路 径 (P Cgave , Mary | John) 20.09) ， 这 里 用 粗 线 箭 头 突出 
显示 。 这 是 一 种 更 好 的 预测 机 制 ， 因 为 它 会 为 诸如 John gave Mary 之 类 的 短语 返回 更 高 的 概率 或 奖 
励 ， 而 不 是 John Mary John 或 John gave. 

注意 , 贪 禁 采样 和 集束 搜索 产生 的 输出 在 我 们 的 示例 中 是 相同 的 , 这 是 一 个 包含 5 个 单词 的 简 
单 句 子 。 然 而 ， 当 我 们 将 其 处 理 以 输出 一 篇 小 文章 时 ,情况 并 非 如 此 。 事 实 上 ， 通 过 集束 搜索 产生 
的 结果 将 比 通过 贪 禁 采样 产生 的 结果 更 加 真实 ， 语 法 更 加 正确 。 


7.5.3 (AWIS 

男 一 种 优化 LSTM 性 能 的 流行 方法 是 使 用 词 回 量 而 不 是 使 用 One-Hot 编码 向 量 作 为 LSTM 的 
输入 。 让 我 们 结合 上 面 的 例子 来 进行 探讨 。 假 设 我 们 想 要 从 一 些 随机 单词 中 生成 文本 ， 它 将 是 以 下 
内 容 : 


John 


我 们 根据 以 下 句子 训练 了 LSTM 模型 : 


John gave Mary a puppy. Mary has sent Bob a kitten. 


[Bic FER] 8] 5E an A] 7-17 所 示 。 


图 7-17 ”二 维 空间 中 的 词 回 量 拓 扑 
这 些 词 回 量 的 数字 形式 可 能 如 下 : 


kitten: [0.5, 0.3, 0.2] 
puppy: [0.49, 0.31, 0.25] 
gave: [0.1, 0.8, 0.9] 


可 以 看 出 (kitten , puppy) 的 距离 小 于 Ckitten , gave) 的 距离 。 但 是 ， 如 果 我 们 使 用 One-Hot 
编码 ， 它们 将 如 下 : 
Kitten: T 1, O; Uy sal 


puppy: [0, 1, O0, ...] 
gave: [Oy O0, L; >il 


而 此 时 ， “(kitten ,puppy) 的 距离 和 Ckitten, gave) 的 距离 相等 。 正 如 所 看 到 的 那样 ，One-Heot 
编码 回 量 不 能 捕获 单词 之 间 的 正确 关系 ， 且 看 到 所 有 单词 彼此 之 间 的 距离 都 相等 。 然 而 ， 词 器 量 能 
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够 捕获 这 种 关系， 且 这 种 关系 更 适合 作为 LSTM 的 特征 。 

由 此 可 见 ， 使 用 词 同 量 ，LSTM 将 学 习 到 更 好 的 词 之 间 的 关系 。 例 如 ， 使 用 词 同 量 ，LSTM 将 
学 习 以 下 内 容 : 

John gave Mary a kitten. 

这 非常 接近 以 下 内 容 : 

John gave Mary a puppy. 

此 外 ， 它 与 以 下 内 容 完 全 不 同 : 

John gave Mary a gave. 


但 是 ， 如 果 使 用 One-Hot 编码 回 量 ， 就 不 会 出 现 这 种 情况 。 


7.5.4 We LSTM 


使 双向 LSTM (Bidirectional LSTM, BiLSTM) 是 提高 LSTM 预测 质量 的 一 种 方法 。 利 用 该 方 
法 可 以 训练 LSTM 从 开始 到 末端 和 从 末端 到 开始 读 取 数 据 。 在 训练 LSTM 期 间 ， 将 创建 如 下 数据 
集 。 

考虑 以 下 两 句 话 : 


John gave Mary a . It barks very loudly. 


在 这 个 阶段 ， 我 们 希望 LSTM 能 够 合理 地 填补 第 一 个 句子 中 的 缺失 数据 。 
如 果 从 头 开始 读 到 缺失 的 单词 ， 那 么 将 是 : 


John gave Mary a 


这 没有 提供 关于 缺失 单词 上 下 文 的 足够 信息 以 便 正确 地 填充 单词 。 但 是 ， 如 果 同 时 双 疝 读 取 ， 
那么 将 是 以 下 内 容 : 


John gave Mary a 


. It barks very loudly. 


如 果 我 们 使 用 这 两 个 部 分 创建 数据 ， 就 足以 预测 丢失 的 单词 应 该 像 dog 或 puppy。 因 此 ， 从 两 
个 方向 读 取 数 据 可 以 显著 优化 某 些 问 题 的 解决 思路 。 此 外 , 这 增加 了 神经 网 络 可 用 的 数据 量 并 提高 
了 其 性 能 。 

BiLSTM 的 另 一 个 应 用 是 神经 网 络 机 器 翻译 ， 将 源 语言 的 句子 翻译 成 目标 语言 的 句子 。 由 于 一 
种 语言 的 翻译 与 另 一 种 语言 之 间 没 有 特定 的 一 致 性 ,因此 了 解 源 语 言 的 过 去 和 未 来 有 助 于 更 好 地 理 
解 上 下 文 ， 从 而 产生 更 好 的 翻译 效果 。 例 如 ， 将 菲律宾 语 翻译 成 英语 的 翻译 任务 。 在 菲律宾 语 中 ， 
句子 通常 按 顺 序 写成 verb-object-subject. 而 在 英语 中 , 则 是 subject-verb-object。 在 这 个 翻译 任务 中 ， 
回 前 和 回 后 阅读 句子 以 进行 恨 好 的 翻译 。 
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BiLSTM 本 质 上 是 两 个 独立 的 LSTM 网 络 。 一 个 网 络 从 头 到 尾 学 习 数据 ， 另 一 个 网 络 从 尾 到 
头 学 习 数 据 。 在 图 7-18 中 说 明了 BILSTM 网 络 的 架构 。 


QU 入 P 


peee... gt L9! ;7 =- 
4 * x 
E SA I SA E qmm - E 
«--! ILSTM Cell <]--' :LSTM Cell <+ --' ‘LSTM Cell 4 --: 
A 


"^K "--—-.-s.--? | ese | LO |  -- Á - -w-www^ 
' ' i 


>| LSTM Cell 
€3 


7-18 BiLSTM 架构 示意 图 


训练 部 分 有 两 个 阶段 。 首 先 ,通过 从 开头 到 结尾 读 取 文 本 而 创建 的 数据 训练 实 线 网 络 。 该 网 络 
代表 用 于 标准 LSTM 的 正常 训练 流程 。 其 次 ， 使 用 通过 反问 读 取 文 本 生成 的 数据 训练 虚线 网 络 。 
然后 ， 在 推理 阶段 使 用 实 线 和 虚线 状态 的 信息 〈 通 过 连接 两 个 状态 并 创建 回 量 ) 来 预测 缺失 单词 。 


7.6 LSTM 的 其 他 变 体 


虽然 我 们 主要 关注 标准 的 LSTM 架构 ， 但 是 它 也 有 许多 变 体 ， 它 们 既 可 以 简化 标准 LSTM 中 
的 复杂 架构 ， 又 可 以 产生 更 好 的 性 能 ， 或 者 两 者 兼 而 有 之 。 我 们 将 研究 两 种 对 LSTM 细胞 架构 进 
行 调整 的 变 体 : 舌 视 孔 连 接 (Peephole Connection) 和 门 控 循 环 单元 (Gated Recurrent Unit, GRU) 。 


7.6.4 SX fLxERE 


BU XEBEANIGYEI] (Gate). 能 够 看 到 当前 输入 和 先前 的 最 终 隐藏 状态 ， 还 允许 看 到 先前 的 
细胞 状态 。 这 增加 了 LSTM 细胞 染 构 中 的 权重 值 数量 。 己 经 证 明 具 有 这 种 连接 可 以 产生 更 好 的 结 
采 ， 这 些 方程 式 如 下 : 


it = o (WiṣnXt + Wanha- + Wicca) + bi) 
ct = tanh(Wieyxe + Ween)hee-1) + be) 


fe — o(Wifx)Xt + Wefahee-1) + Wrre)C(t—1) 十 br) 
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ct = ftCee-1)  l& 
0t = G(W(oxyXt + Wionyh(t-1) + Woco) + bo) 
h, 一 ortanh(cr) 


让 我 们 简要 介绍 一 下 这 些 是 如 何 优化 LSTM 模型 的 。 这 些 门 看 到 的 是 当前 输入 和 最 终 隐 藏 状 
态 ， 但 不 是 细胞 状态 。 不 过 ， 在 此 配置 中 ， 如 果 输 出 门 的 值 接近 零 ， 即 使 细胞 状态 包含 对 于 提升 性 
能 至 关 重 要 的 信息 ， 最 终 隐 藏 状态 也 将 接近 于 去 。 因 此 ， 这 些 门 在 计算 期 间 不 会 考虑 隐藏 状态 。 在 
门 计 算 方 程 中 含有 细胞 状态 和 被 允许 对 细胞 状态 做 更 多 的 控制 ,并 且 即 使 在 输出 门 接近 零 的 情况 下 
它 也 可 以 表现 良好 。 

我 们 用 图 7-19 中 的 舌 视 孔 连接 来 说 明 LSTM 的 架构 ， 标准 LSTM 中 的 所 有 现 有 连接 进行 了 灰 
色 处 理 ， 新 添加 的 连接 以 黑色 显示 。 


图 7-19 有 帘 视 孔 连接 的 LSTM ( 帘 视 孔 连 接 显示 为 黑色 ， 其 他 连接 显示 为 灰色 ) 


7.6.2 | HREJ 


门 控 循 环 单元 (Gated Recurrent Unit, GRU) 可 被 视 为 标准 LSTM 架构 的 简化 情况 。 正 如 我 们 
看 到 的 ，LSTM 有 三 个 不 同 的 门 和 两 个 不 同 的 状态 。 即 使 对 于 规模 小 的 状态 ， 仅 这 一 点 也 需要 大 量 
参数 。 因 此 ， 科 学 家 们 研究 了 减少 参数 数量 的 方法 ， 而 GRU 就 是 这 样 一 种 方法 。 标 准 LSTM 和 
GRU 之 间 有 几 个 主要 差异 ， 具 体 如 下 : 

首先 ，GRU 将 两 个 状态 〈 细 胞 状态 和 最 终 隐 藏 状态 ) 组 合成 单个 隐藏 状态 。 现 在 ， 针 对 这 两 
种 细胞 状态 做 简单 修改 后 ,结果 就 是 我 们 失去 了 输出 门 。 由 前 面 的 内 容 , 我 们 知道 输出 门 只 是 决定 
将 多 少 细胞 状态 读 入 最 终 隐藏 状态 ， 因 此 此 操作 大 大 减少 了 LSTM 细胞 中 的 参数 数量 。 

接 下 来 ，GRU 引入 一 个 复位 门 〈 或 称 为 重 置 门 ) ， 当 它 接近 1 时 ， 在 计算 当前 状态 时 将 获取 
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完整 的 先前 状态 信息 ; 而 当 复 位 门 接 近 0 时， 它 在 计算 当前 状态 时 忽略 先前 的 状态 信息 。 
re = 6(WgyyXe + Wehr + br) 
h, = tanh(Wqyx, + Winn) (rehee_1)) + br) 


其 次 ，GRU 将 输入 门 和 遗志 门 组 合成 一 个 更 新 门 。 标 准 LSTM 有 两 个 门 : 输入 门 和 遗 起 门 。 
输入 门 决 定 将 多 少 目前 输入 读 入 细胞 状态 ， 而 遗 筷 门 决 定 将 多 少 先 前 细胞 状态 读 入 当前 细胞 状态 。 
在 数学 上 ， 这 可 以 显示 如 下 : 


it = o(Woin)Xe + Wanha- + bi) 
ft = o(WeoXt + Wemhee ny + br) 


AR SECRET 1 O0, WÉ AARS I 76 EARS e TEN AARS, E A CE 
读 入 当前 状态 。 如 果 更 新 门 是 1， 那 么 所 有 当前 输入 被 读 入 当前 细胞 状态 ， 而 之 前 细胞 状态 都 不 会 
被 推送 到 当前 细胞 状态 。 换 句 话 说 ， 更 新 门 变 为 遗 扎 门 的 反 转 ， 即 1 fe: 


Zt = oO(W(zx)Xt 十 Wnyht 4 + b,) 
hi = zh, + (1 — Zehe- 
现在 我 们 把 GRU 设计 的 方程 式 总 结 一 下 ， 有 具体 如 下 : 
re = o(Waxyxe t Wehr) + br) 
he = tanh(Wigyx: + Wonn) (rehee_ 1) + bn) 
Zt = 0(WexyXt + Wenhee-1) + bz) 
hr = zh, + (1— Ze)hge-1) 


这 比 LSTM 更 紧凑 。 在 图 7-20 中 ， 我 们 给 出 了 GRU 细胞 ( 左 图 ) 和 LSTM 细胞 〈 右 图 ) 。 


7-20 GRU 和 LSTM 的 对 比 
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7.7 总 结 


LN 一 


在 本 章 中 ， 我 们 学 习 了 LSTM 网 络 。 首 先 ， 我 们 讨论 了 LSTM 及 其 高 级 架构 ， 还 深入 研究 了 
LSTM 中 发 生 的 详细 计算 ， 并 通过 一 个 例子 讨论 了 计算 过 程 。 
我 们 看 到 LSTM 主要 由 5 个 不 同 的 部 分 组 成 。 


细胞 状态 ( Cell State) : LSTM 细胞 的 内 部 状态 ( 存储 器 ) 。 

隐藏 状态 (Hidden State) : 外 部 隐藏 状态 用 于 计算 预测 。 

输入 门 (Input Gate) : 这 决定 了 当前 输入 被 读 入 细胞 状态 的 程度 。 

iit & Il] (Forget Gate) : 这 确定 了 将 先前 的 细胞 状态 发 送 到 当前 细胞 状态 的 程度 。 
输出 门 (Output Gate) : 这 决定 了 将 多 少 细胞 状态 输出 到 隐藏 状态 。 


拥有 如 此 复杂 的 结构 允许 LSTM 很 好 地 捕获 短期 和 长 期 依赖 性 。 

我 们 发 现 LSTM 实际 上 能 够 将 长 期 依赖 性 作为 其 结构 的 固有 部 分 进行 学 习 , 而 RNN 可 能 无 法 
学 习 长 期 依赖 性 。 之 后 ， 我 们 讨论 了 LSTM 如 何 通过 其 复杂 的 结构 解决 梯度 消失 的 问题 。 

然后 ， 我 们 讨论 了 几 个 可 以 提高 LSTM 性 能 的 扩展 。 首 先是 我 们 称 之 为 贪 禁 采样 的 一 种 非常 
简单 的 技术 ， 其中, 我们 不 是 总 是 输出 最 佳 候 选项 ， 而 是 从 一 组 最 佳 候 选项 中 随机 采样 预测 。 我 们 
看 到 这 种 技术 改善 了 生成 文本 的 多 样 性 。 接 下 来 , 我 们 研究 了 一 种 称 为 集束 搜索 的 更 复杂 的 搜索 技 
术 。 通 过 这 种 技术 ， 我 们 可 以 预测 未 来 的 几 个 时 间 步 长 ， 并 选择 产生 最 佳 联 合 概率 的 候选 项 ， 而 不 
是 对 未 来 的 单个 时 间 步 长 进行 预测 。 另 一 项 改进 是 词 回 量 如 何 帮助 我 们 提高 LSTM 预测 的 质量 。 
使 用 词 癌 量 , LSTM 可 以 更 有 效 地 学 习 在 预测 期 间 蔡 换 语 义 相似 的 词 〈 例 如 ,代替 输出 dog, LSTM 
可 能 输出 cat) ， 从 而 使 生成 文本 更 真实 和 正确 。 我 们 考虑 的 最 终 扩 展 是 BILSTM 或 双向 LSTM。 
BiLSTM 的 一 个 流行 应 用 是 填充 短语 中 的 缺失 单词 。BiLSTM 可 以 从 开始 到 末端 、 从 末端 到 开始 两 
个 方向 读 取 文 本 。 这 为 我 们 提供 了 更 多 的 文本 背景 资料 ， 因 为 我 们 在 正式 预测 之 前 可 以 观察 到 待 生 
成 文本 的 过 去 和 未 来 。 

最 后 ， 我 们 讨论 了 LSTM 的 两 种 变 体 : MILER GRU. Vanilla LSTM 在 计算 门 时 ， 只 查 
看 当前 输入 和 隐藏 状态 。 通 过 宽 视 孔 连 接 ， 我 们 使 门 计算 依赖 于 所 有 当前 输入 、 隐 茂 和 细胞 状态 。 

GRU 是 VanillaLSTM 更 优秀 的 变 体 ， 可 简化 LSTM 而 不 会 影响 性 能 。 GRU 只 有 两 个 门 和 一 
个 状态 ， 而 VanillaLSTM 有 三 个 门 和 两 个 状态 。 

在 下 一 章 中 , 我 们 将 看 到 这 些 不 同 的 架构 与 每 个 架构 的 实现 , 并 了 解 它们 在 文本 生成 任务 中 的 
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文本 自动 生成 是 自然 语言 处 理 领域 的 一 个 重要 研究 方 同 , 这 项 技术 可 以 实现 让 计算 机 像 人 类 一 
样 撰写 出 高 质量 的 自然 语言 文本 。 束 不 同 的 输入 而 言 , 我 们 可 以 将 文本 自动 生成 划分 为 文本 到 文本 
的 生成 (Text-to-Text Generation) 、 意 义 到 文本 的 生成 (Meaning-to-Text Generation) 、 数 据 到 文 
本 的 生成 (Data-to-Text Generation) 以 及 图 像 到 文本 的 生成 (Image-to-Text Generation) 等 ， 其 中 
图 像 到 文本 生成 方面 的 研究 内 容 将 在 下 一 章 单 独 介 绍 。 这 些 文本 生成 技术 每 一 项 都 有 很 大 的 挑战 性 ， 
有 不 少 研 究 人 员 都 在 做 着 前 沿 的 研究 ， 且 相关 领域 应 用 的 潜力 巨大 。 例 如 ， 文 本 目 动 生成 技术 可 以 
应 用 于 基于 海量 语料库 的 智能 问答 和 对 话 、 新 闻 文 章 的 撰写 、 突 发 事件 的 实时 报道 以 及 海量 文献 书 
籍 的 上 自动 摘 要 等 ,甚至 可 以 用 来 帮助 学 者 进行 学 术 论 文 的 撰写 ,从 而 实现 更 加 智能 和 目 然 的 人 机 区 
互 ， 以 减少 许多 语言 工作 人 员 的 工作 量 ， 并 推动 相关 领域 回 更 高 的 水 平 发 展 。 比 较 典 型 的 案例 : X 
联 社 2014 年 7 月 已 采用 新 闻 写 作 软 件 自 动 撰写 新 闻 稿 件 来 报道 公司 业绩 ， 美 国 洛杉矶 时 报 利用 
应 用 软件 来 撰写 突 发 新 闻 ， 美 国 “ 自 动 洞察 力 ” 公 司 (Automated Insights) 采用 “语言 专家 ”软件 
撰写 橄榄 球 、 财 经 等 方面 的 新 闻 报道 。 这 些 具体 案例 标志 着 文本 上 自动 生成 技术 已 经 对 我 们 的 工作 和 
生活 产生 了 积极 的 影响 。 

在 第 7 章 ， 我 们 已 经 很 好 地 理解 了 LSTM 的 基本 原理 ， 例 如 它们 如 何 解 决 梯度 消失 和 更 新 规 
则 的 问题 ， 下 面 可 以 看 看 如 何在 NLP 任务 中 使 用 它们 。 LSTM 大 量 用 于 文本 生成 和 图 像 标 题 生 成 
等 任务 。 例 如 ,语言 建 模 对 于 文本 摘要 任务 非常 有 用 ,或 者 为 产品 生成 迷人 的 文本 广告 ， 其 中 图 像 
标题 生成 或 图 像 注释 对 于 图 像 检索 非常 有 用 , 并 且 用 户 可 能 需要 检索 表示 某 些 概念 的 图 像 (例如 一 
只 狗 ) 。 

本 章 先 从 文本 目 动 生成 的 前 三 个 技术 开始 讲解 ， 接 着 介绍 使 用 LSTM 生成 新 文本 。 为 此 ， 我 
们 将 下 载 格林 兄弟 的 一 些 民 间 故 事 的 文本 集 , 将 使 用 这 些 故事 来 训练 LSTM, 并 在 最 后 要 求 输出 一 
个 全 新 的 故事 。 我 们 将 通过 把 文本 分 解 成 字符 级 二 元 组 (n-gram， 其 中 n=2) 来 处 理 文 本 ， 并 利用 
唯一 的 二 元 组 来 制作 词汇 表 。 我 们 还 将 探索 实现 之 前 提 到 的 技术 和 方法 , 例如 贪 禁 采 样 或 集束 搜索 
预测 。 之 后 , 我 们 将 介绍 如 何 实现 除 标准 LSTM 之 外 的 时 间 序 列 模型 , 例如 具有 堪 视 孔 连 接 和 GRU 
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的 LSTM. 

接 下 来 , 我 们 将 学 习 生 成 具有 比 字 符 级 二 元 组 (比如 单个 单词 ) 更 好 的 输入 表示 的 文本 。 注 意 ， 
与 字符 级 二 元 组 相 比 , 具有 One-Hot 编码 的 单词 特征 是 非常 低 效 , 因为 词汇 量 可 以 随 着 单词 快速 增 
长 。 因 此 ， 解 决 这 个 问题 的 一 个 好 方法 是 学 习 词 回 量 (或 使 用 预 处 理 的 向 量 ) ， 并 将 其 作为 LSTM 
的 输入 。 使 用 词 癌 量 能 够 避免 维 数 灾难 。 在 现实 世界 的 这 类 问题 中 ， 词 汇 量 的 大 小 可 以 介 于 
10 000~1 000 000 之 间 。 然 而 ， 尽 管 词汇 量 很 大 ， 不 过 词 辣 量具 有 固定 的 维度 。 


8.1 文本 到 文本 的 生成 


文本 到 文本 的 生成 技术 旨 在 对 给 定 文本 进行 变换 和 处 理 ， 从 而 获得 新 文本 ， 涵 盖 文 本 摘要 
(Document Summarization) 、 句 子 压 缩 (Sentence Compression) 、 句 子 融合 (Sentence Fusion) 、 
文本 复述 生成 (CParaphrase Generation). 等 主要 方面 。 对 这 些 不 同 的 技术 ， 研 究 人 员 已 经 进行 了 很 
多 年 的 研究 , 且 获 得 的 研究 成 果 大 多 在 自然 语言 处 理 相 关 学 术 会 议 与 期 刊 上 进行 了 公开 发 表 , 例如 
ACL, EMNLP, NAACL, COLING, AAAI, IJCAI, SIGIR, INLG, ENLG 等 。 实 际 上 ， 从 某 种 
程度 上 而 言 , 我 们 可 以 将 机 器 翻译 当 作 一 种 从 源 语言 到 目标 语言 的 文本 生成 技术 。 当 然 ， 由 于 机 器 
翻译 是 相对 独立 的 一 个 研究 领域 ， 因 此 我 们 将 在 第 11 章 针 对 这 方面 的 内 容 进行 单独 介绍 。 


8.1.1 文本 摘要 


文本 摘要 技术 是 通过 上 自动 分 析 给 定 的 文档 或 文档 集 , 抽取 其 中 的 要 点 信息 , 进而 输出 一 篇 短小 
的 摘要 (通常 包含 几 句 话 或 上 百 字 ) ， 该 摘要 中 的 内 容 可 直接 出 目 原 文 ， 也 可 重新 撰写 生成 。 我 们 
进行 文本 摘要 的 目的 是 通过 对 原文 本 进行 压缩 、 提 炼 ， 为 用 户 提供 简明 扼要 的 内 容 描述 。 关 于 文本 
摘要 ， 业 界 有 着 不 同 的 划分 标准 ， 具 体 如 下 : 

根据 所 要 处 理 的 文档 数量 不 同 , 文本 摘要 可 以 分 为 单 文本 摘要 和 多 文本 摘要 。 显 然 , 单 文本 摘 
要 只 对 单 篇 文本 生成 摘要 ， 多 文本 摘要 则 对 一 个 文本 集 生 成 摘要 。 

根据 提供 的 上 下 文 语 境 不 同 , 文 本 摘要 可 以 分 为 主题 或 得 询 无 关 的 摘要 和 主题 或 得 询 相关 的 摘 
要 。 主题 或 得 询 无 关 的 摘要 是 指 不 给 定 主题 和 碍 询 的 条 件 下 对 文本 或 文本 集 生 成 的 摘要 :; 主题 或 查 
询 相关 的 摘要 是 指 在 给 定 的 茶 个 主题 或 得 询 的 情况 下 能 够 阐明 该 主题 或 回答 该 查询。 

根据 摘要 所 采用 的 方法 不 同 , 文本 摘要 可 以 分 为 生成 式 和 抽取 式 。 生 成 式 一 般 需 要 利用 目 然 语 
言 理解 技术 对 文本 进行 语法 和 语义 方面 的 分 析 , 并 对 信息 进行 融合 , 利用 上 自然 语言 生成 技术 生成 新 
的 摘要 内 容 。 而 抽取 式 则 相对 比较 简单 ， 主 要 利用 不 同方 法 对 文档 结构 单元 〈 句 子 、 段 落 等 ) 进行 
评价 ， 对 每 个 结构 单元 赋予 一 定 权重 值 ， 然 后 选择 最 重要 的 结构 单元 组 成 摘要 。 应 用 比较 多 的 是 抽 
取 式 ， 通 弟 采 用 的 结构 单元 为 句子 。 

根据 摘要 的 应 用 类 型 不 同 ,摘要 可 以 分 为 标题 摘要 、 传 记 摘 要 、 电 影 摘要 等 。 这些 摘要 一 般 是 
为 了 满足 茶 些 特定 的 应 用 需求 ,比如 传记 摘要 的 目的 是 为 共 个 人 生成 一 个 概 丘 性 的 描述 ,一般 涉及 
这 个 人 的 各 种 属性 : 姓名、 性别、 地址、 出生、 兴趣 爱好 等 。 我 们 通过 浏览 茶 个 人 的 传记 摘要 就 可 
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以 对 这 个 人 有 整体 上 的 认 知 。 

目前 ， 大 多 数 文 本 摘要 方法 主要 是 基于 句子 抽取 ， 即 以 原文 中 的 句子 为 单位 进行 评估 与 抽取 。 
这 类 方法 易于 实现 且 能 最 大 程度 地 保证 摘要 句子 具有 良好 的 可 读 性 。 这 类 方法 的 两 个 关键 步骤 为 : 
一 是 对 文档 中 的 句子 进行 重要 性 计算 或 排序 , 二 是 筛选 出 重要 的 句子 组 合成 所 需 的 摘要 。 关 于 第 一 
个 步 又， 我们 可 以 利用 基于 规则 的 方法 ， 通 过 句子 的 位 置 或 所 包含 的 线索 词 来 判定 句子 的 重要 性 ， 
也 可 以 采用 各 种 机 器 学 习 方 法 、 深 度 学 习 方法 ， 从 整体 上 对 句子 的 多 种 特征 进行 重要 性 的 分 类 、 回 
归 或 排序 。 对 于 第 二 个 步骤 ， 则 基于 第 一 个 步骤 的 结果 ， 需 要 考虑 句子 之 间 的 相似 性 ， 避 免 选择 重 
复 的 句子 (如 MMR 算法 ) ， 并 进一步 对 所 选择 的 摘要 人 句子 进行 连 叶 性 排列 (如 自 底 回 上 法 ) ， 从 
而 获得 最 终 的 摘要 。 最近, 学 术 界 进一步 提出 了 基于 整数 线性 规划 的 方法 以 及 次 模 函 数 最 大 化 的 方 
法 ， 可 以 在 句子 选择 的 过 程 中 同时 考虑 句子 的 元 余 性 。 

而 压缩 式 文本 摘要 方法 则 不 同 , 它 考 虑 对 句子 进行 压缩 ,以便 在 较 短 长 度 限制 下 让 摘要 涵盖 更 
多 的 内 容 。 这 里 代表 性 的 做 法 是 同时 进行 句子 选择 与 句子 压缩 ,能 够 获得 更 好 的 ROUGE 性 能 ( 注 : 
ROUGE 是 由 Lin 和 Hovy 提出 的 一 种 自动 摘要 评估 方法 ， 被 广泛 用 于 摘要 评测 任务 中 ) 。 另 外 ， 
部 分 工作 还 利用 句子 融合 等 技术 来 对 已 有 人 句子 进行 转换 ， 获 取 新 的 摘要 内 容 。 

关于 进一步 的 生成 式 摘要 研究 , 就 是 通过 对 原文 档 进行 语义 理解 , 将 原文 档 表示 为 深层 语义 形 
xo 然后 分 析 获 得 摘要 的 深层 语义 表示 ， 最终 由 摘要 的 深层 语义 表示 来 生成 摘要 文本 。 其 中 的 一 种 
尝试 就 是 基于 抽象 意义 表示 (Abstract Meaning Representation, AMR) 发 展 出 生成 式 摘要 。 我 们 通 
过 这 类 方法 所 获得 的 摘要 句子 并 不 是 基于 原文 句子 ,而 是 利用 自然 语言 生成 技术 从 语义 表达 直接 生 
成 。 实 际 上 ， 这 类 方法 相对 比较 复杂 ， 这 里 还 会 涉及 自然 语言 理解 与 自然 语言 生成 本 号 的 问题 ， 具 
有 一 定 的 难度 。 


8.12 句子 压缩 与 融合 


句子 压缩 与 融合 技术 主要 用 于 文本 摘要 系统 中 ,以 便 生 成 信息 更 加 紧 凌 的 摘要 , 使 得 我 们 获得 
的 摘要 效果 更 佳 。 具 体 来 看 , 句子 压缩 技术 主要 是 基于 一 个 长 句子 来 生成 一 个 短 句 子 ， 且 保证 该 短 
句子 能 够 保留 长 句子 中 的 重要 信息 ， 即 重要 信息 基本 不 丢失 、 短 句子 保持 通顺 。 句子 融合 技术 则 将 
两 个 或 多 个 包含 重复 内 容 的 相关 句子 合并 起 来 获得 一 个 句子 。 这 里 根据 目的 的 不 同 可 以 分 为 两 类 ， 
一 类 句子 融合 是 只 保留 多 个 句子 中 的 共同 信息 ,而 过 滤 其 中 无 关 的 细节 信息 (类 似 于 集合 运算 中 的 
取 交 集运 算 ) ， 男 一 类 则 是 只 过 滤 多 个 句子 之 间 的 重复 内 容 (类似 于 集合 运算 中 的 取 并 集运 算 ) 。 
关于 句子 融合 问题 ，Regina Barzilay 和 Kathleen McKeown 提出 了 一 条 流水 线 算法 ， 主 要 涉及 共 
同 信息 识别 (Identification of Common Information) 、 融 合 网 格 计算 (Fusion Lattice Computation) 、 
网 格 线性 化 (Lattice Linearization) 三 方面 。 另 外 ， 相 关 研 究 人 员 针 对 句子 融合 问题 提出 了 其 他 的 
方法 ,其 中 有 基于 结构 化 辨别 学 习 的 方法 .基于 整数 线性 规划 的 方法 和 基于 图 的 最 短路 径 的 方法 等 。 


8.1.3 文本 复述 生成 


文本 复述 生成 技术 是 指 对 给 定 文 本 进行 改写 , 以 生成 全 新 的 复述 文本 , 通常 输出 文本 与 输入 文 
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本 在 表达 上 有 所 不 同 , 但 它们 所 表达 的 含义 基本 一 致 。 对 于 复杂 的 文本 复述 生成 而 言 , 研究 人 员 给 
出 了 基于 自然 语言 生成 的 方法 、 基 于 机 器 翻译 的 方法 与 基于 文 点 Pivot) 的 方法 等 。 其 中 ， 基 于 
目 然 语言 生成 的 方法 是 模拟 人 类 的 思维 模式 , 先 对 输入 的 句子 进行 语义 理解 , 得 到 该 句子 的 语义 表 
zh, 再 基于 得 到 的 语义 表示 生成 新 的 句子 。 基 于 机 器 翻译 的 方法 是 将 文本 复述 生成 问题 看 成 是 单 语 
言 机 器 翻 译 问题 , 并 通过 现 有 机 占 翻 译 模型 为 给 定 文 本 生成 复述 文本 。 基 于 文 点 的 方法 则 是 将 当前 
语言 中 的 输入 文本 翻译 到 男 一 种 语言 (支点 ) ， 再 将 翻译 获得 的 文本 再 次 翻译 回 当前 语言 。 

其 实 , 文本 复述 生成 搁 术 具有 广泛 的 应 用 前 景 , 例如 在 机 器 翻译 时 , 我 们 可 以 利用 文本 复述 技 
术 对 复杂 输入 文本 进行 简化 处 理 ， 从 而 提升 整体 翻译 效果 。 在 儿童 教学 领域 , 我 们 可 以 利用 文本 复 
述 技术 将 临 汐 难 忆 的 文本 简化 处 理 为 儿童 容易 理解 的 文本 。 

然而 , 目前 能 够 为 给 定 文 本 生成 具有 较 小 差异 的 复述 文本 , 但 在 文本 生成 的 质量 上 面临 着 一 些 
挑战 , 主要 是 因为 对 于 改写 甚 多 的 复述 文本 而 言 难以 做 到 两 点 : 既 要 做 到 保证 其 与 原文 本 语义 的 一 
致 性 ， 又 要 做 到 该 文本 的 可 读 性 。 


8.2 意义 到 文本 的 生成 


在 计算 语言 学 领域 ， 大 多 数 研 究 人 员 都 遭 循 的 语义 研究 原则 是 建立 在 “ 真 值 条 件 〈Truth 
Condition) ”的 基础 上 ， 认 为 寻找 到 了 能 够 使 自然 语言 语句 成 真 的 条 件 ， 即 在 某 种 程度 上 刻画 了 上 自 
然 语 言 的 语义 。 

研究 人 员 在 真 值 假 设 基 础 上 普遍 采用 逻辑 的 方法 对 语义 进行 表征 ， 并 分 别 从 模型 论 CModel 
Theory) 和 证 明 论 (Proof Theory) 两 个 角度 进行 研究 ， 所 以 大 多 数 情况 下 这 种 类 型 的 语义 也 被 称 
为 逻辑 语义 。 

其 实 ， 意 义 到 文本 的 生成 和 组 合 语 义 分 析 (Compositional Semantic Parsing) 密切 相关 ， 语义 
分 析 旨 在 对 线性 的 词 序 列 进行 目 动 句 法 语义 解析 并 得 到 其 真 值 条 件 。 由 于 我 们 在 分 析 过 程 中 遵循 了 
弗 雷 格 的 组 合 原 则 (Principle of Compositionality) ， 因 此 也 称 为 组 合 语义 分 析 ， 以 便 同 分 布 式 语义 

(Distributional Semantics) 相 区 别 。 作 为 自然 语言 处 理 中 的 一 个 核心 技术 ,组 合 语义 在 深度 语义 理 
解 方面 起 着 关键 性 的 作用 ,在 智能 问答 、 机 器 翻译 等 多 个 自然 语言 处 理 核 心 任务 中 有 着 良好 的 应 用 。 
从 问题 自身 的 定义 来 看 ， 其 实意 义 到 文本 的 生成 与 组 合 语义 分 析 是 一 对 互 逆 的 上 自然 语言 处 理 任 务 。 
接 下 来 ， 我 们 从 基于 深层 语法 的 文本 生成 、 基 于 同步 文法 的 文本 生成 两 方面 做 相关 介绍 。 


8.2.1 基于 深层 语法 的 文本 生成 


在 自然 语言 处 理 研究 的 早期 阶段 , 计算 机 语言 学 起 到 了 很 大 的 作用 , 因为 计算 语言 学 家 从 形式 
化 、 可 计算 两 方面 对 自然 语言 进行 了 建 模 ,并 提出 了 则 在 解释 语言 运作 机 理 的 一 系列 句法 语义 模型 ， 
进而 依据 这 些 模型 构建 了 自然 语言 处 理 系统 。 

而 深层 语法 复杂 度 较 高 ， 如 何 构 造 对 错综复杂 的 语言 现象 具有 高 禾 新 度 (Broad Coverage) 的 
语法 规则 本 号 是 一 个 极 大 的 难题 。 以 上 研究 主要 是 对 原型 算法 进行 讨论 , 而 因为 真实 可 用 的 大 型 深 
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层 语法 当时 没有 得 到 很 好 的 开发 ， 以 上 研究 并 没有 呈现 极 具 代 表 性 意义 的 经 验 结果 。 经 过 十 余年 的 
开发 ,研究 人 员 在 HPSG 理论 的 基础 上 开发 出 了 英语 资源 语法 (English Resource Grammar, ERG), 
这 是 一 个 比较 成 功 的 具有 较 高 覆盖 率 的 深层 语法 规则 系统 ， 而 围绕 ERG 所 展开 的 文本 生成 研究 也 
取得 了 有 益 的 进展 。Carroll 和 Oepen 基于 ERG 和 真实 测试 数据 重新 讨论 了 基于 线 图 的 生成 技术 ， 
给 出 了 极 具 参 考 意 义 的 经 验 评估 。 另 外 , 他 们 提出 了 两 项 新 的 技术 来 改进 基于 合 一 语法 的 可 行 解 紧 
致 表示 (Compact Representation) 及 其 相关 解码 算法 一 一 选择 性 开 箱 〈Selective Unpacking) ， 尤 
其 后 者 有 效 地 利用 了 判别 式 学 习 模 型 来 改进 文本 生成 过 程 中 所 遇 到 的 歧义 消解 。 

相关 研究 在 二 十 世纪 八 九 十 年 代 取 得 了 丰硕 的 研究 成 果 , 一 系列 兼 具 语言 本 体 解 释 力 和 可 计算 
性 的 语法 范式 (Grammar Formalism) 被 提出 ， 如 组 合 范畴 语法 (Combinatory Categorial Grammar, 
CCG) 、 中 心 语 驱动 的 短语 结构 语法 (Head-Driven Phrase-Structure Grammar, HPSG) 等 。 不 同 于 
目前 句法 分 析 所 主要 使 用 的 上 下 文 无 关 文法 (Context-Free Grammar, CFG) ， 上 述 语法 范式 具有 
超越 上 下 文 无 关 的 表达 能 力 ， 其 语法 推导 过 程 往往 更 复杂 ， 缠 含 更 多 的 信息 ， 而 这 些 信息 可 以 用 来 
做 更 透明 的 语义 分 析 ， 简 而 言 之 ， 这些 深 层 语法 范式 能 够 更 好 地 文 持 句法 语义 同步 的 语言 分 析 。 在 


输入 ， 通 过 其 逆 过 程 可 以 完成 意义 到 文本 的 生成 。 

组 合 范畴 语法 是 一 个 广 受 目 然 语 言 处 理 领 域 学 者 关注 的 语法 范式 ， 其 设计 遵循 了 类 型 透明 
(Type Transparency) 的 原则 , 具有 精简 的 语法 语义 接口 , 常常 被 语义 分 析 和 文本 生成 模型 所 采用 。 
White 和 Baldridge 讨论 了 如 何 将 线 图 生成 法 与 组 合 范畴 语法 结合 ， 并 开发 了 开源 的 基于 组 合 范 畸 
语法 的 句子 实现 (Realization) 工具 一 一 OpenCCG。White 又 与 其 他 学 者 联合 提出 了 一 些 进 一 步 改 

进 文本 生成 的 算法 。 


8.22 ”基于 同步 文法 的 文本 生成 


在 过 去 的 20 年 间 ， 统 计 句 法 分 析 与 统计 机 器 翻译 是 公认 的 两 个 取得 长 足 进步 的 目 然 语言 处 理 
技术 。 除 了 从 成 熟 的 统计 句法 分 析 中 借鉴 成 功 经 验 (如 判别 式 消 层 ) 之 外 ,不 少 学 者 尝试 复 用 成 功 
的 机 器 翻译 模型 来 完成 文本 生成 .机 器 翻译 的 目标 是 将 某 种 自然 语言 语句 翻译 成 男 一 种 自然 语言 语 
句 ,并 尽量 保持 意义 不 变 ; 而 文本 生成 则 可 以 视 为 将 某 种 形式 的 语言 语句 翻译 成 一 种 自然 语言 语句 ， 
二 者 具有 极 强 的 可 比 性 。 

Chiang 提出 了 基于 层次 短语 的 翻译 模型 (Hierarchical Phrase-Based Model) ， 其 核心 是 利用 同 
步 上 下 文 无 关 文法 (Synchronous Context-Free Grammar) 来 协同 源 语言 语句 的 解析 和 目标 语言 语句 
的 生成 。 目 前 同步 文法 已 经 被 借鉴 到 文本 生成 的 研究 中 。Wong 5 Mooney 两 位 作者 讨论 了 两 种 形 
式 语 言 用 于 表征 意义 : 第 一 种 是 用 于 指挥 机 器 人 动作 的 形式 语言 , 第 二 种 是 无 变量 的 数据 库 检 索 语 
£i; 而 Lu 5 Ng 则 针对 表达 能 力 极 强 的 类 型 入 KIAI (Typed A-expression) 展开 研究 。 两 项 研 
究 的 一 个 共同 点 是 构建 形式 语言 的 基于 树 的 结构 ,再 将 相关 结构 与 待 生 成 的 自然 语言 的 树 结构 建立 
一 致 性 对 应 ， 从 而 完成 文本 生成 任务 ; 男 一 个 共同 点 则 是 广泛 地 使 用 现 有 的 机 器 翻译 技术 (包括 开 
源 软件 等 ) 来 进行 文法 抽取 、 解 码 等 。 

国内 语言 学 界 与 计算 语言 学 界 针 对 目 然 语言 语义 的 形式 化 研究 较 少 ,针对 汉语 进行 全 方面 组 合 
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语义 刻画 的 研究 目前 尚 属 空白 。 从 事 目 然 语言 处 理 的 研究 人 员 也 较 少 涉猎 深层 语言 结构 处 理 问题 ， 
而 对 意义 到 文本 的 生成 研究 则 更 是 鲜 有 ， 很 少 能 见 到 相关 学 术 成 果 发 表 在 重要 学 术 会 议和 期 刊 上 。 


9.3 数据 到 文本 的 生成 


数据 到 文本 的 生成 技术 指 根据 给 定 的 数值 数据 生成 相关 文本 , 例如 基于 数值 数据 生成 天 气 预 报 
文本 、 体 育 新 闻 、 财 经 报道 、 医 疗 报告 等 。 数 据 到 文本 的 生成 技术 具有 极 强 的 应 用 前 景 ， 目 前 该 领 
域 已 经 取得 了 很 大 的 研究 进展 , 业界 已 经 研制 出 面向 不 同 领域 和 应 用 的 多 个 生成 系统 。 针对 数据 到 
文本 的 生成 技术 研究 主要 集中 于 少数 几 个 单位 , 例如 英国 阿 伯 丁 大 学 、 英 国 布 莱 顿 大 学 、 爱 丁 堡 大 
学 等 ， 相 关 研 究 成 果 主 要 发 表 在 INLG、ENLG 等 专业 学 术 会 议 上 。 

英国 阿 伯 丁 大 学 的 Ehud Reiter 在 三 阶段 流水 线 模型 的 基础 上 提出 了 数据 到 文本 的 生成 系统 
的 一 般 框 架 ， 如 图 8-1 所 示 。 


Event Numeric Input Data 


Input Data 
Signal Analysis 


Patterns 


Data Interpretation 


Messages, 
Relations 


Document Planning 


Selected msgs, 
doc/rhet struct 


Microplanning and 
Realisation 


Text 


8-1 数据 到 文本 的 生成 系统 的 一 般 框架 


其 中 : 

信号 分 析 (Signal Analysis) 模块 的 输入 为 数值 数据 ， 通 过 利用 各 种 数据 分 析 方 法 检测 数据 中 
的 基本 模式 ， 输 出 离散 数据 模式 。 例 如 股票 数据 中 的 峰值 、 较 长 期 的 增长 趋势 等 。 该 模块 与 具体 应 
用 领域 和 数据 类 型 相关 ， 针 对 不 同 的 应 用 领域 与 数据 类 型 输出 的 数据 模式 是 不 同 的 。 

数据 阐释 (Data Interpretation). 模块 的 输入 为 基本 模式 与 事件 ， 通 过 对 基本 模式 和 输入 事件 进 
行 分 析 而 推断 出 更 加 复杂 和 抽象 的 消息 , 同时 推 呆 出 它们 之 间 的 关系 , 最 后 输出 高 层 消息 以 及 消息 
之 间 的 关系 。 例 如 针对 股票 数据 ， 如 果 跌 幅 超过 茶 个 值 就 可 以 创建 一 条 消息 。 还 需要 检测 消息 之 间 
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的 关系 ， 例 如 因果 关系 、 时 序 关 系 等 。 值 得 说 明 的 是 ， 数 据 曾 释 模块 并 不 是 在 所 有 文本 生成 系统 中 
都 需要 ， 例 如 在 天 气 预报 文本 生成 系统 中 ， 基 本 的 模式 足以 满足 要 求 ， 因 此 并 不 需要 采用 数据 阐释 
模块 。 

文档 规划 (Document Planning) 模块 的 输入 为 消息 及 关系 ， 分 析 诀 定 哪些 消息 和 关系 需要 在 文 
本 中 提 及 ， 同 时 要 确定 文本 的 结构 ， 最 后 输出 需要 提 及 的 消息 以 及 文档 结构 。 从 更 高 的 层次 来 说 ， 
信号 分 析 与 数据 阐释 模块 会 产生 大 量 的 消息 、 模 式 和 事件 , 但 文本 通常 长 度 受 限 ， 只 能 描述 其 中 的 
一 部 分 ， 因 此 文档 规划 模块 必须 确定 文本 中 需要 说 明 的 消息 。 一 般 可 根据 专家 知识 、 消 息 的 重要 性 
及 新 颖 性 等 来 进行 选择 和 确定 。 当 然 ， 该 模块 与 领域 也 相关 ， 不 同 领 域 中 对 消息 的 选择 所 考虑 的 因 
素 不 一 样 ， 文 档 的 结构 也 会 不 一 样 。 

微 规划 与 实现 CMicroplanning and Realization) 模块 的 输入 为 选中 的 消息 及 结构 ， 通 过 目 然 语 
言 生 成 技术 输出 最 终 的 文本 。 该 模块 主要 涉及 对 句子 进行 规划 以 及 句子 的 实现 ,要求 最 终 实现 的 句 
子 具 有 正确 的 语法 、 时 态 和 拼写 ， 同 时 采用 准确 的 指 代表 达 。 

目前 , 业界 已 经 研制 了 面 癌 多 个 领域 的 数据 到 文本 的 生成 系统 , 这 些 系统 的 框架 与 上 述 一 般 框 
架 并 无 大 的 差别 ， 部 分 系统 将 上 述 框架 中 的 两 个 模块 合并 为 一 个 模块 ， 或 者 省 去 其 中 一 个 模块 。 数 
据 到 文本 的 生成 技术 在 天 气 预报 领域 应 用 得 最 为 成 功 , 业 界 研制 了 多 个 系统 对 天 气 预 报 数据 进行 总 
结 ， 生 成 天 气 预报 文本 。 例 如 ，FoG 系统 能 够 从 用 户 操作 过 的 数据 中 生成 双语 天 气 预报 文本 ; 
SumTime 系统 能 够 生成 海洋 天 气 预报 文本 ， 实 验 评 测 表 明 用 户 有 时 更 倾 问 于 阅读 SumTime 所 生 
成 的 天 气 预 报 ， 而 非 专家 撰写 的 天 气 预 报 。 此 外 ， 英 国 阿 但 丁 大 学 的 Anja Belz 提出 了 概率 生成 
模型 进行 天 气 语言 文本 的 生成 。Anja Belz 和 Eric Kow 进一步 基于 天 气 预 报 数据 分 析 对 比 了 多 种 
数据 到 文本 的 生成 系统 , 结果 表明 采用 目 动 化 程度 较 高 的 方法 并 不 会 降低 文本 生成 质量 ， 同 时 文本 
质量 的 自动 评价 方法 会 低估 基于 手工 规则 构建 的 系统 ， 而 高 估 上 自动 化 系统 。 

由 于 数据 到 文本 的 生成 技术 的 巨大 应 用 价值 , 业界 成 立 了 多 家 从 事 文 本 生成 的 公司 , 能够 为 多 
个 行业 基于 行业 数据 生成 行业 报告 或 新 闻 报 道 , 从 而 节省 大 量 的 人 力 。 比 较 知名 的 公司 有 ARRIA, 
AI (Automated Insights) 、Narrative Science 等 。 其 中 ARRIA 是 一 家 总 部 设 在 欧洲 的 公司 ， 其 前 
称 为 Data2Text， 由 来 自 阿 伯 丁 大 学 的 两 名 教授 Ehud Reiter 与 Yaji Sripada 创办 ， 后 来 自然 语言 
生成 领域 的 男 一 位 科学 家 Robert Dale 也 加 入 了 该 公司 , 该 公司 的 核心 技术 为 ARRIA NLG 引擎 。 
AI 则 是 一 家 美国 人 工 智能 公司 ， 由 一 名 思科 的 前 工程 师 Robbie Allen 创办 ， 最 早 基于 体育 数据 生 
成 文本 摘要 ， 目 前 能 为 包括 金融 、 个 人 健身 、 商 业 智 能 、 网 站 分 析 等 在 内 的 多 个 领域 的 数据 生成 文 
本 报告 ， 其 核心 技术 为 WordSmith NLG 引擎 。 目前，AI 公司 已 经 为 美 联 社 等 多 家 单位 生成 数 亿 
篇 新 闻 报 道 ， 造 成 了 巨大 的 影响 力 。Narrative Science 则 是 根据 美国 西北 大 学 的 一 个 研究 项 目 
StatsMonkey 发 展 而 来 的 ， 其 核心 技术 为 Quill NLG 引擎 。Forbes 是 Narrative Science. 的 一 个 典 
型 客户 , 在 网 站 上 有 一 个 Narrative Science R, 全 部 文章 都 是 由 Narrative Science. 自动 生成 的 。 
下 面 给 出 一 篇 自动 生成 的 样 例 新 闻 ， 如 图 8-2 所 示 。 
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Earnings for Alcoa Projected to Rise 


By Narrative Science 


+ Comment Now + Folow Comments 


Wall Street is high on Alcoa, expecting it to report earnings that are 
up 28% from a year ago when it reports its second-quarter earnings 

on Wednesday, July 8, 2015. The consensus estimate is 23 cents per 
share, up from earnings of 18 cents per share a year ago. 


The consensus estimate has fallen over the past three months, from 
27 cents. Analysts are expecting earnings of 95 cents per share for 
the fiscal year. Analysts look for revenue to decrease 1% 
year-over-year to $5.79 billion for the quarter, after being $5.84 
billion a year ago. For the year, revenue is projected to roll in at 
$223.63 billion. 


Revenue dropped year-over-year in the first quarter, ending a 
two-quarter streak of growing revenue. 


Alcoa is a global producer of aluminum. It is mainly engaged in the 
production and management of primary aluminum, fabricated 
aluminum, and alumina combined. It is actively involved in a range 
of industries, including technology, mining, smelting, and recycling. 
Kaiser Aluminum Corp., also in the metal mining industry, will 
report earnings on Wednesday, July 22, 2015. Analysts are expecting 
earnings of $1.19 per share for Kaiser Aluminum, up 13% from last 
year's earnings of $1.05 per share. Other companies in the metal 
mining industry with upcoming earnings release dates include: 
Noranda Aluminum Holding and Aluminum Corp. of China Limited. 


Earnings estimates provided by Zacks. 


8-2 Narrative Science 自动 生成 的 样 例 新 闻 
接 下 来 ， 我 们 将 着 手 利 用 LSTM 模型 逐步 实现 文本 自动 生成 项 目 。 


8.4 文本 目 动 生成 前 的 数据 准备 


首先 ， 我 们 将 讨论 用 于 文本 生成 的 数据 以 及 用 于 清理 数据 的 各 种 预 处 理 步 又 。 


8.4.1 数据 集 


首先 ,我 们 看 一 下 数据 集 的 样子 , 以 便当 看 到 生成 的 文本 时 ,根据 训练 数据 评估 它 是 否 有 意义 。 
我 们 将 从 网 站 https://www.cs.cmu.edu/~spok/grimmtmp/ 上 下 载 前 100 本 书 。 这 是 格林 兄弟 的 一 套 书 
(从 德语 到 英语 ) 的 译文 ， 与 第 6 章 循环 神经 网 络 中 用 于 证 明 RNN 性 能 的 文本 相同 。 
首先 ， 使 用 脚本 上 自动 从 网 站 下 载 前 100 本 书 ， 代 码 如 下 : 
url = 'https://www.cs.cmu.edu/~spok/grimmtmp/' 
# 如 果 有 必要 的 话 ， 创 建 一 个 目录 


dir name = 'stories' 
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if not os.path.exists(dir name): 
os.mkdir(dir name) 
def maybe download(filename): 
""" 如 果 文件 不 存在 就 下 载 """ 
print('Downloading file: ', dir name+ os.septfilename) 


if not os.path.exists(dir nametos.septfilename): 


filename, = urlretrieve(url + filename, dir name-cos.septfilename) 
else: 
print('File ',filename, ' already exists.') 


return filename 
num files = 100 
filenames = [format (i, '03d')-«'.txt' for i in range(1,101)] 
for fn in filenames: 


maybe download(fn) 


我 们 将 展示 从 两 个 随机 挑选 的 故事 中 提取 的 示例 文本 片段 。 
以 下 是 第 一 个 文本 片段 (0.01.txt) : 


The king's daughter began to cry, for she was afraid of the cold frog 
which she did not like to touch, and which was now to sleep in her 
pretty, clean little bed. But the king grew angry and said, "He who 
helped you when you were in trouble ought not afterwards to be 
despised by you." So she took hold of the frog with two fingers, 
carried him upstairs, and put him in a corner, but when she was in 
bed he crept to her and said, "I am tired, I want to sleep as well as 
you, lift me up or I will tell your father." At this she was terribly 
angry, and took him up and threw him with all her might against the 
wall. "Now, will you be quiet, odious frog," said she. But when he 
fell down he was no frog but a king's son with kind and beautiful 
eyes. He by her father's will was now her dear companion and 
husband. Then he told her how he had been bewitched by a wicked 
witch, and how no one could have delivered him from the well but 


herself, and that to-morrow they would go together into his kingdom. 


第 二 个 文本 片段 (0.02.txt) 如 下 : 


Next morning, when the loss was reported abroad, all the people cried 
loudly 'the queen is a man-eater. She must be judged, and the king 
was no longer able to restrain his councillors. Thereupon a trial was 
held, and as she could not answer, and defend herself, she was 
condemned to be burnt at the stake. The wood was got together, and 
when she was fast bound to the stake, and the fire began to burn 
round about her, the hard ice of pride melted, her heart was moved by 


repentance, and she thought 'if I could but confess before my death 
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that I opened the door.' Then her voice came back to her, and she 
cried out loudly 'yes, mary, I did it, and straight-way rain fell 
from the sky and extinguished the flames of fire, and a light broke 
forth above her, and the virgin mary descended with the two little 
sons by her side, and the new-born daughter in her arms. She spoke 
kindly to her, and said 'he who repents his sin and acknowledges it, 
is forgiven.' Then she gave her the three children, untied her 


tongue, and granted her happiness for her whole life. 


8.4.2 ” 预 处 理 数据 


在 预 处 理 方面 , 我 们 首先 使 所 有 文本 字母 变 为 小 写 , 并 将 文本 分 解 成 字符 n-gram, 其 中 n 一 2。 
请 考虑 以 下 句子 : 


The king was hunting in the forest. 
这 将 分 解 为 一 系列 n-gram， 如 下 所 示 : 


['th,' 'e ,' 'ki,' 'ng,' ' w,' 'as,' ..] 


我 们 将 使 用 字符 级 别 的 双 字 母 ， 因 为 与 使 用 单个 单词 相 比 ， 它 大 大 减少 了 词汇 量 。 此 外 ,我 们 
将 使 用 特殊 标记 (UNK) 蔡 换 在 语料库 中 出 现 少 于 10 次 的 所 有 双 字 母 组 ， 表示 该 二 元 组 未 知 。 这 
有 助 于 我 们 进一步 减少 词汇 量 。 


8.5 ”实现 LSTM 


本 节 将 讨论 LSTM 实现 的 细节 。 虽 然 TensorFlow 中 有 子 库 已 经 实现 了 现成 的 LSTM， 但 我 们 
将 从 头 开 始 实现 。 这 将 非常 有 价值 ,因为 在 现实 世界 中 可 能 存在 无 法 直接 使 用 这 些 现成 组 件 的 情况 。 
此 代码 位 于 chs 文件 夹 中 的 8 Istm for text generation.ipynb 代码 文件 中 。 但 是 ， 我 们 还 将 包含 一 
个 范例 ， 其 中 将 展示 如 何 使 用 现 有 的 TensorFlow RNN API， 该 API 在 位 于 同一 文件 夹 中 的 
8 lstm word2vec mn apiipynb 代码 文件 中 。 在 这 里 ， 我 们 将 讨论 8 lstm for text generation.ipynb 
文件 中 可 用 的 代码 。 

首先 ， 我 们 将 讨论 用 于 LSTM 的 超 参数 及 其 效果 。 其 次 ， 将 讨论 实现 LSTM 所 需 的 参数 〈 权 
重 值 和 偏差) 。 接 着 ， 将 讨论 如 何 使 用 这 些 参数 来 编写 LSTM 中 发 生 的 操作 。 之 后 ， 我 们 将 了 解 
如 何 逐 步 地 将 数据 提供 给 LSTM。 接 下 来 ， 将 讨论 如 何 使 用 梯度 裁剪 实现 参数 以 进行 优化 。 最 后 ， 
我 们 将 研究 如 何 使 用 学 习 到 的 模型 输出 预测 ,这 些 预 测 基本 上 是 二 元 组 , 它们 最 终 将 组 成 一 个 有 意 
义 的 故事 。 
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8.5.1 定义 超 参数 


首先 ， 我 们 将 定义 LSTM 所 需要 的 一 些 超 参 数 : 
# 隐藏 状态 变量 中 的 神经 元 数量 


num nodes = 128 
# 一 个 batch 中 要 处 理 的 数据 点 数 


batch size = 64 


# 在 优化 期 间 展 开 的 时 间 步 数 
num unrollings = 50 
# 使 用 dropout 

dropout = 0.2 


以 下 给 出 了 每 个 超 参数 的 说 明 。 

€ num nodes: 表示 细胞 (Cell) 记忆 状态 中 的 神经 元 数量 。 当 数据 充足 时 ， 增 加 细胞 记忆 
的 复杂 性 将 给 出 更 好 的 性 能 ， 与 此 同时 ， 它 减 慢 了 计算 速度 。 

€ batch size: 这 是 一 步 处 理 的 数据 量 。 增 加 批量 的 大 小 有 助 于 提高 模型 的 性 能 ， 但 会 带 来 
更 高 的 内 存 要 求 。 

€ num unrollings: 在 截断 BPTT 中 使 用 的 时 间 步 数 。num unrollings 步 数 越 高 ， 性 能 越 好 ， 
但 是 它 将 增加 内 存 需求 和 计算 时 间 。 

€ dropout: 使 用 dropout (正则 化 技术 ) 来 减少 模型 的 过 拟 合 ， 并 产生 更 好 的 结果 。dropout 
在 将 输入 、 输 出 、 状 态 变 量 传 递 到 它们 的 连续 操作 之 前 ， 随 机 地 从 输入 、 输 出 、 状 态 变 
量 中 删除 信息 。 这 在 学 习 过 程 中 产生 宛 余 特征 ， 从 而 导致 更 好 的 性 能 。 


852 ”定义 参数 


现在 我 们 将 为 LSTM 的 实际 参数 定义 TensorFlow 变量 。 
首先 ， 我 们 将 定义 输入 门 参 数 。 


e ix: 这 些 是 将 输入 连接 到 输入 门 的 权重 值 。 

@ im: 这 些 是 将 隐藏 状态 连接 到 输入 门 的 权重 值 。 
@ ib: 这 是 偏差 项 。 

这 里 我 们 将 定义 参数 : 


#Input gate (it) - 写 入 细胞 状态 的 记忆 量 

# 将 当前 输入 连接 到 输入 门 
ix-tf.Variable(tf.truncated normal([vocabulary size, m nodes],stddev-0.02)) 
# 将 先前 的 隐藏 状态 连接 到 输入 门 


im = tf.Variable(tf.truncated normal([num nodes, num nodes],stddev-0.02)) 


# 输入 门 的 偏差 
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ib = tf.Variable(tf.random uniform([1, num nodes],-0.02, 0.02)) 


RID], ADIRE. TAA FE dS PUB TES Fi P TE XCBUR FB - 
XUI pex: 

HADI] Gt) - 从 细胞 状态 丢弃 多 少 记忆 

# 将 当前 输入 连接 到 遗忘 门 


fx = tf.Variable(tf.truncated normal([vocabulary size, num nodes],stddev-0.02)) 


WEZ BU BS] ESGBUDA s ee Pe 39 s D] 


fm — tf.Variable(tf.truncated normal([num nodes, num nodes],stddev-0.02)) 


# 遗 态 门 的 偏差 


fb = tf.Variable(tf.random uniform([1, num nodes],-0.02, 0.02)) 


候选 项 〈 用 于 计算 细胞 状态 ) 定义 如 下 : 


#Candidate value (c~t) - 用 于 计算 当前 的 细胞 状态 
# 将 当前 输入 连接 到 候选 项 
cx = tf.Variable(tf.truncated normal([vocabulary size, num nodes],stddev-0.02)) 


# 将 之 前 的 隐藏 状态 连接 到 候选 项 


cm = tf.Variable(tf.truncated normal([num nodes, num nodes],stddev-0.02)) 


# 候选 项 的 偏差 


cb = tf.Variable(tf.random uniform([1, num nodes],-0.02,0.02)) 
输出 门 定义 如 下 : 


# 输 出 门 - 从 细胞 状态 输出 多 少 记忆 
# 将 当前 输入 连接 到 输出 门 
ox = tf.Variable(tf.truncated normal([vocabulary size, num nodes],stddev-0.02)) 


# 将 先前 的 隐藏 状态 连接 到 输出 门 


om = tf.Variable(tf.truncated normal([num nodes, num nodes],stddev-0.02)) 


# 输 出 门 的 偏差 


ob = tf.Variable(tf.random uniform([1, num nodes],-0.02,0.02)) 


接 下 来 ， 我 们 将 为 状态 和 输出 定义 变量 。 它 们 是 TensorFlow 变量 ， 表 示 LSTM 细胞 的 内 部 状 


态 和 外 部 隐藏 状态 。 在 定义 LSTM 计算 的 操作 时 ， 我 们 使 用 t£.control. iesC..) PR BOE XXE FEBRE, 
以 便 用 我 们 计算 的 最 新 细胞 状态 和 隐藏 状态 值 更 新 。 


# 变 量 在 展开 时 保存 状态 
H 隐藏 状 态 


saved output —-tf.Variable(tf.zeros([batch size, num nodes]),trainable-False, 


name-'train hidden!) 


# 细胞 状态 


saved state = tf.Variable(tf.zeros([batch size, num nodes]),trainable-False, 


name-'train cell') 


# 验 证 阶段 的 相同 变量 


saved valid output = tf.Variable(tf.zeros([1, num nodes]),trainable-False, 
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name-'valid hidden') 
saved valid state = tf.Variable(tf.zeros([1, num nodes]),trainable-False, 


name-'valid cell') 
最 后 ， 我 们 将 定义 softmax 层 以 获得 实际 预测 : 
#Softmax 分 类 器 的 权重 值 和 偏差 


w — tf.Variable(tf.truncated normal([num nodes, 
vocabulary size],stddev-0.02)) 


b = tf.Variable(tf.random uniform([vocabulary size],-0.02,0.02)) 


注意 , 我 们 使 用 的 是 正 态 分 布 ,， 具有 和 零 均 值 和 小 的 标准 偏差 。 这 是 很 好 的 ， 因 为 我 们 的 模型 是 

一 个 简单 的 单个 LSTM 细胞 。 然 而 ， 当 网 络 变 得 更 深 时 《多 个 LSTM 细胞 堆 登 在 一 起 ) ， 需 要 更 

精细 化 的 初始 化 技术 。 一 种 这 样 的 初始 化 技术 被 称 为 Xavier 初始 化 ， 由 Glorot 和 Bengio 在 他 们 的 

i& X: (Understanding the difficulty of training deep feedforward neural networks》 中 提出 (第 13 fm 

际 人 工 智 能 与 统计 会 议论 文集 ，2010 E) 。 这 可 以 作为 TensorFlow 中 的 变量 初始 化 器 使 用 
(https://www.tensorflow.org/api docs/python/tf/contrib/layers/xavier initializer) 。 


8.5.3 定义 LSTM 细胞 及 其 操作 


通过 定义 权重 值 和 偏差 可 以 在 LSTM 细胞 中 定义 操作 ， 这 些 操作 包括 以 下 内 容 : 


计算 输入 门 和 遗忘 门 产生 的 输出 。 
计算 内 部 细胞 状态 。 

计算 输出 门 产生 的 输出 。 
计算 外 部 隐藏 状态 。 


以 下 是 LSTM 细胞 的 实现 情况 : 


def istm cell(i, o, state): 
input gate = tf.sigmoid(tf.matmul(i, ix) -*tf.matmul(o, im) + ib) 
forget gate = tf.sigmoid(tf.matmul(i, fx) -*tf.matmul(o, fm) + fb) 
update = tf.matmul(i, cx) + tf.matmul(o, cm) + cb 
State = forget gate * state + input gate * tf.tanh(update) 
output gate = tf.sigmoid(tf.matmul(i, ox) -*tf.matmul(o, om) + ob) 
return output gate * tf.tanh(state), state 


8.5.4 iE Xf ACRES 


现在 我 们 将 定义 训练 输入 《展开 训练 ) 和 标签 。 训 练 输入 是 具有 num unrolling 批量 数据 〈 序 
AD 的 列表 ， 其 中 每 批 数据 具有 [batch_ size, vocabulary size] X^: 


train inputs, train labels = []，[] 
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for ui in range (num unrollings): 


train inputs.append(tf.placeholder(tf.float32,shape-[batch size,vocabulary 


size],name-'train inputs $d'$ui)) 


train labels.append(tf.placeholder(tf.float32,shape-[batch size,vocabulary 


size], name = 'train labels $d'$ui)) 


我 们 为 验证 输入 和 和 输出 定义 占 位 符 ， 这 些 占 位 符 将 用 于 计算 验证 困惑 度 (Perplexity) « 不 过 ， 
在 这 里 我 们 不 使 用 输入 进行 与 验证 相关 的 计算 。 


# 验证 数据 占 位 符 


valid inputs = tf.placeholder(tf.float32, shape=[l,vocabulary size], 


name-'valid inputs') 


valid labels = tf.placeholder(tf.float32, shape-[l1,vocabulary size],name = 
'valid labels') 


8.5.5 ”定义 处 理 序 列 数据 所 需 的 序列 计算 


在 这 里 ， 我 们 将 以 循环 方式 计算 单 次 展开 训练 输入 所 产生 的 输出 。 我 们 还 将 使 用 Dropout 〈 参 
考 Srivastava 和 Nitish 等 人 的 《Dropout: A Simple Way to Prevent Neural Networks from Overfitting) , 
Journal of Machine Learning Research 15 (2014) : 1929-1958) ， 因 为 这 样 可 以 稍微 提高 性 能 。 最 
后 ， 通 过 计算 的 所 有 隐藏 输出 值 来 为 训练 数据 计算 logit f: 


# 训练 相关 的 推理 逻辑 ， 在 所 有 展开 训练 输入 中 保存 计算 的 状态 输出 用 于 计算 损失 


outputs = list() 


# 这 两 个 Python 变量 在 展开 的 每 个 步 长 中 迭代 更 新 

output = saved output 

state — saved state 

# 对 于 展开 中 的 所 有 步 数 ， 循 环 计 算 隐 藏 状态 〈 输 出) 和 细胞 状态 (状态 ) 
for i in train inputs: 

output, state — lstm cell(i, output, state) 

output = tf.nn.dropout (output,keep prob-1.0-dropout) 

# 增 加 每 个 计算 的 输出 值 


outputs.append (output) 


## 计 算得 分 值 


logits = tf.matmul(tf.concat(axis-0, values-outputs), w) + b 
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接 下 来 , 在 计算 损失 之 前 , 我 们 必须 确保 输出 和 外 部 隐藏 状态 被 更 新 为 之 前 计算 的 最 新 值 。 这 
可 以 通过 添加 tfcontrol dependencies 条 件 并 将 logit 和 loss 计算 保持 在 以 下 条 件 来 实现 : 


with tf.control dependencies([saved output.assign(output), 


saved state.assign(state)]): 


# 分 类 器 
loss = tf.reduce mean( tf.nn.softmax cross 
entropy with logits v2(logits-logits, labels-tf.concat(axis-0, 


values-train labels))) 


我 们 还 定义 了 验证 数据 的 前 问 传播 逻辑 。 注 意 ， 我 们 不 会 在 验证 期 间 使 用 dropout， 仅 限于 训 
练 期 间 : 


# 验 证 阶段 相关 的 推理 逻辑 

# 计 算 验证 数据 的 LSTM 细胞 输出 

valid output, valid state = lstm cell( valid inputs, saved valid output, 
saved valid state) 

t il*€ilogits 

valid logits = tf.nn.xw plus b(valid output, w, b) 


8.5.6 定义 优化 器 


本 节 将 定义 优化 过 程 。 我 们 将 使 用 一 种 称 为 Adam 的 先进 优化 器 , 它 是 迄今 为 止 最 好 的 基于 随 
机 梯度 的 优化 器 之 一 。 在 代码 中 ，gstep 是 一 个 变量 ， 用 于 随时 间 推 移 衰减 学 习 速率 。 我 们 将 在 下 
一 节 讨 论 细 节 。 此 外 ， 我 们 将 使 用 梯度 裁剪 来 避免 梯度 爆炸 。 


# 每 次 gstep 增加 时 衰减 学 习 率 
tf learning rate = tf.train.exponential decay(0.001,gstep,decay steps-1, 


decay rate-0.5) 


* Adam 优化 器 和 梯度 裁剪 


optimizer = tf.train.AdamOptimizer(tf learning rate) 
gradients, v = zip(*optimizer.compute gradients (loss)) 
gradients, = tf.clip by global norm(gradients, 5.0) 


optimizer = optimizer.apply gradients( zip(gradients, v)) 


8.5.7 BEEBIIBIBUTETE SCRUCE E 


如 前 所 述 ， 我 们 使 用 衰减 学 习 率 而 不 是 恒定 的 学 习 率 。 随 着 时 间 的 推移 ， 衰 减 学 习 率 是 深度 学 
习 中 用 于 实现 更 好 性 能 和 减少 过 度 拟 合 的 常用 技术 。 这 里 的 关键 思想 是 ， 如 果 验 证 困惑 度 在 预定 数 
量 的 时 期 内 没有 减少 ， 就 降低 学 习 速 率 〈 例 如 降低 0.5 倍 ) 。 让 我 们 来 看 一 下 这 是 如 何 实现 的 。 
首先 定义 gstep 和 一 个 增加 gstep 的 操作 ， 名 为 inc_gstep， 代 人 码 如 下 : 


# 学 习 率 衰减 
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gstep = tf.Variable(O0,trainable-False,name-'global step') 
# 运 行 此 操作 将 导致 gstep 的 值 增 加 ， 从 而 降低 学 习 速率 


inc gstep = tf.assign(gstep, gstep-*l) 


通过 这 个 定义 可 以 编写 一 些 简 单 的 多 辑 在 验证 损失 没有 减少 的 情况 下 调用 ine gstep 操作 ， 代 
R3ün P: 


# 学 习 率 衰减 相关 
# 如 果 验 证 数据 的 困惑 度 没 有 持续 减少 ， 那 么 这 个 时 期 会 降低 学 习 率 
decay threshold - 5 
# 保持 计数 困惑 度 增加 
decay count - 0 
min perplexity = lelO 
# 学 习 率 衰减 逻辑 
def decay learning rate(session, v perplexity): 
global decay threshold, decay count, min perplexity 
# 衰 减 学 习 率 
if v perplexity « min perplexity: 
decay count - 0 
min perplexity- v perplexity 
else: 


decay count += 1 


if decay count »- decay threshold: 
print ('\t Reducing learning rate') 
decay count = 0 


session.run(inc gstep) 


每 当 我 们 直到 新 的 最 小 验证 困惑 度 时 ， 我 们 都 会 更 新 min perplexity. J,/h, v perplexity 是 当 
前 的 验证 困惑 度 。 


8.5.8 ”进行 预测 


现在 我 们 可 以 简单 地 通过 对 之 前 计算 的 logits 应 用 softmax 激活 来 进行 预测 。 我 们 还 定义 了 验 
证 logits 的 预测 操作 : 


train prediction = tf.nn.softmax(logits) 

# 确 保 在 继续 下 一 迭代 之 前 更 新 状态 变量 

with tf.control dependencies([saved valid output.assign(valid output), 
saved valid state.assign(valid state)]): 


valid prediction = tf.nn.softmax(valid logits) 
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8.5.9 计算 困惑 度 〈 损 失 ) 


我 们 在 第 7 章 “ 长 短期 记忆 网 络 ” 中 定义 了 困惑 度 。 回 顾 一 下 ， 考 虑 到 当前 的 n-gram, WR 
度 是 LSTM 看 到 下 一 个 n-gram 的 意外 (Surprised) 程度 。 因此, 较 高 的 困惑 度 意味 着 较 差 的 性 能 ， 
而 较 低 的 困惑 度 意味 着 较 好 的 性 能 : 


train perplexity without exp = tf.reduce sum(tf.concat(train labels,0)* 
-tf.log(tf.concat(train prediction, 0)+1le-10))/(num unrollings*batch size) 

# 计算 验证 数据 困惑 度 

valid perplexity without exp = tf.reduce sum(valid labels*-tf. 


log (valid prediction-tle-10)) 


8.5.10 重 置 状态 


我 们 使 用 状态 重 置 ， 因 为 正在 处 理 多 个 文档 。 因 此 ， 在 开始 处 理 新 文档 时 ， 我 们 将 隐藏 状态 重 
置 为 零 。 但是， 在 实践 中 ， 重 置 状 态 是 否 有 帮助 还 不 是 很 清楚 。 一 方面 ， 当 开始 阅读 新 故事 时 ， 将 
每 个 文档 开头 的 LSTM 细胞 的 记忆 (或 者 说 内 存 〉 重 置 为 零 听 起 来 很 直观 ， 男 一 方面 ， 这 会 使 状 
态 变 量 偏 癌 零 。 我 们 鼓励 在 状态 重 置 和 状态 不 重 置 的 情况 下 运行 算法 ， 并 查看 哪 种 方法 表现 展 好 。 

# 重 置 训练 状态 


reset train state = tf.group(tf.assign(saved state, tf.zeros([batch size, 


num nodes])),tf.assign(saved output, tf.zeros([batch size, num nodes]))) 


# 重 置 验证 状态 
reset valid state = tf.group(tf.assign(saved valid state, tf.zeros([l, 


num nodes])), tf.assign(saved valid output, tf.zeros([1, num nodes]))) 


8.5.41 贪 禁 采样 打破 重复 性 


这 是 一 种 非常 简单 的 技术 ， 我 们 可 以 随机 采样 LSTM 从 找到 的 n 个 最 佳 候 选项 中 抽取 下 一 个 
预测 。 
def sample (distribution): 
best inds = np.argsort (distribution) [-3:] 
best probs -distribution[best inds]/np.sum(distribution[best inds]) 
best idx = np.random.choice (best inds,p-best probs) 


return best idx 


8.5.42 生成 新 文本 


我 们 将 定义 生成 新 文本 所 需 的 占 位 符 、 变 量 和 操作 。 这 些 定 义 与 我 们 对 训练 数据 所 做 的 类 似 。 
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首先 ， 将 为 状态 和 输出 定义 输入 占 位 符 和 变量 。 接 下 来 ,将 定义 状态 的 重 置 操作 。 最 后 ， 将 为 要 生 
成 的 新 文本 定义 LSTM 细胞 计算 和 预测 : 


# 文本 生成 : batch 1， 不 展开 


test input = tf.placeholder(tf.float32, shape-[1, vocabulary size], name 
= 'test input') 


# 测试 阶段 的 相同 变量 

saved test output = tf.Variable(tf.zeros([1, num nodes]), trainable-False, 
name-'test hidden!) 

saved test state = tf.Variable(tf.zeros([1, num nodes]), 


trainable-False, name-'test cell') 


# 计算 用 于 测试 数据 的 LsTM 细胞 输出 
test output, test state — lstm cell( test input, saved test output, 


saved test state) 


# 确保 在 继续 下 一 次 迭代 之 前 更 新 状态 变量 
with tf.control dependencies([saved test output.assign(test output), 
saved test state.assign(test state)]): 
test prediction = tf.nn.softmax(tf.nn.xw plus b(test output, w, b)) 
# 重 置 测 试 状 态 
reset test state — tf.group( 
saved test output.assign(tf.random normal([1,num nodes],stddev-0.05)), 


saved test state.assign(tf.random normal([1,num nodes],stddev-0.05))) 


8.5.13 ”示例 生成 的 文本 


让 我 们 看 一 下 第 26 步 学 习 后 LSTM 生成 的 一 些 数据 : 


the little said, am one of the glass, and the father had to this, there is at 
the dog 
would have should be stone with the money, hans that in his father the king was 


mine, then he did not know what a beautiful bird am UNK 


thereupon they said, klippines, 
my father he did not know when you have sold his wife, and 
said, the wedding was alone. then the money him a sunder them. 
so the shepherd 
was dead to his father, and that he had 
been he said, 
what, can you speak and said, he saw the window that he had to see him and comes, 


he fell into a son, and 
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went out and where that 

this all heads which he did better, he were was to standing by the handsome of 
the brother, said the wine of his strang the way to the faith, and said, you have 
promised her this, said, the little marlinchen by his father, i will not know how 
i will have you are, and they were to her father, i will now change man, and 

wept again, and the father, and the master loses. 


so the master the good brother was a couple in 


正如 你 所 看 到 的 ， 文 本 看 起 来 比 我 们 从 RNN 生成 的 要 好 得 多 。 事 实 上 ， 我 们 的 训练 语料库 里 
有 一 个 关于 农妇 和 奶牛 贩子 的 故事 。 但 是 ， 我 们 的 LSTM 不 只 是 输出 文本 ， 还 可 以 引入 新 的 东西 
比如 牧羊 人 〈shepherd) 、 婚 礼 CweddingO 和 葡 衡 酒 (wine) 为 这 个 故事 情节 增添 更 多 的 色彩 。 接 
下 来 ， 我 们 将 研究 从 标准 LSTM 生成 的 文本 与 其 他 模型 (如 带宽 视 孔 连接 和 GRU 的 LSTM) 生成 
的 文本 的 比较 。 


8.6 标准 LSTM 与 带 有 帘 视 孔 连 接 
和 GRU 的 LSTM 的 比较 


本 节 将 在 文本 生成 任务 中 把 LSTM 5i SUULTUXEBERI GRU 的 LSTM 进行 比较 。 这 将 有 助 于 
我 们 比较 不 同 模型 在 困惑 度 和 生成 文本 质量 方面 的 表现 。 实 现代 码 见 ch8 文件 夹 中 的 代码 文件 
8 lstm extenslons.IDynb 。 


8.6.1 标准 LSTM 


首先 重申 标准 LSTM 的 组 件 。 我 们 不 会 重复 标准 LSTM 的 代码 , 因为 它 与 之 前 讨论 过 的 相同 。 
最 后 将 看 到 LSTM 生成 的 一 些 文本 。 

在 这 里 ， 我 们 将 重新 审视 标准 LSTM 的 结构 。 正 如 前 面 提 到 的 ，LSTM 包括 以 下 内 容 : 

输入 门 : 这 决定 了 当前 输入 被 写 入 细胞 状态 的 程度 。 


XE]: 这 决定 了 前 一 个 细胞 状态 写 入 当前 细胞 状态 的 程度 。 
输出 门 : 这 决定 了 从 细胞 状态 向 外 部 隐藏 状 态 输 出 的 信息 量 。 


下 面 将 说 明 如 何 将 这 些 门 、 输 入 、 细 胞 状态 和 外 部 隐藏 状态 中 的 每 一 个 连接 起 来 ， 如 图 8-3 所 
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8-3 "AK LSTM 细胞 结构 的 示例 图 


下 面 展示 标准 LSTM 在 对 我 们 的 数据 集 进行 第 1 步 训 练 和 进行 26 步 训 练 后 生成 的 文本 。 
第 1 步 学 习 后 生成 的 文本 : 


den there here, the took his she was and will, and was are then the bad the baved 
the bailled then said the to he was nother had he baill the baillet not ther, and 
the to had to had to and said to then he had said to he had to the but, and to his 
that the baill to had so that his baid the bailled not the baad the was to her that 
to the to had the was and said the to his so he will to and the will her one there 
to the wher the was was not the to the wast her the baad, but the was was the to 
to the to had that the took, and the baad, and to to the hat to a said to the will 
to had said, and was he ward, and the bailled ther, and the to his he bad ther, 
and the to the wook the bave, and the took, and the was was to he was was the to 
the will that his his said to the baid the to the when that, and the to he bad the 
to the beather he was to he bad to he want, but the was was not not the baad and 
then him not the was not to the but his sook that he hat to and the was as the was 


not not not the 


第 26 步 学 习 后 生成 的 文本 : 


as and with the king, that they were there to be two-eyes and was 

to two-eyes, and so that is so that and that they said, "you strange to be still 
again. she was two-eyes, and where is some to her that, and the two 

brothers, when he was to drink, but the two brought that they said, "you will 


became to be still standing and the tree for they came and she had gone and the 
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king they were to the golden road, and thereupon they were two two-eyes," and they 
was apples the tree to her took at the tree, who was to dear the three beautiful 
bear struck the two the water to seek her to them, and two-eyes, "got to she was 
standing to strong was to door, and said, "they two belongs, and said, 

"wite and was the goat, the two godfather took them that they 

went to your son, and the two 

false her some, and the two 

false hearts with you, but the two brothers were two-eyes, and two-eyes, "the 
king, and said to him to him that the king with the tree for they can belong, that 
is the golden and said, the 


我 们 可 以 看 到 ， 在 第 26 步 学 习 后 与 第 1 步 学 习 后 相 比 ， 文 本 质量 有 了 相当 大 的 提高 。 此 外 ， 


本 文 看 起 来 比 我 们 在 第 6 章 中 使 用 循环 神经 网 络 的 示例 中 看 到 的 要 好 得 多 , 当时 用 100 个 故事 来 训 


8.6.2 |] 控 循 环 单元 


本 节 首 先 简 要 描述 GRU 的 组 成 ,然后 是 实现 GRU 细胞 的 代码 ,最 后 看 一 下 GRU 细胞 生成 的 
一 些 文本 。 


1. 回顾 


下 面 复习 一 下 GRU. GRU 是 LSTM 操作 的 优雅 简化 形式 。GRU 对 LSTM 引入 了 两 种 不 同 的 
修改 ， 如 图 8-4 所 示 。 它 将 内 部 细胞 状态 和 外 部 隐藏 状态 连接 成 单个 状态 。 然 后 将 输入 门 和 遗 态 门 
合并 成 一 个 更 新 门 。 


8-4 ”单个 GRU 细胞 结构 的 示例 图 
2. 相关 代码 
这 里 我 们 将 定义 一 个 GRU 细胞 : 
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def gru cell(i, o): 
"""GJz—^- GRU 细胞 .""" 
reset gate = tf.sigmoid(tf.matmul(i, rx) + tf.matmul(o, rh)-* rb) 
h tilde = tf.tanh(tf.matmul(i,hx) + tf.matmul(reset gate * o, hh) + hb) 
z = tf.sigmoid(tf.matmul(i,zx) + tf.matmul(o, zh) + zb) 
h = (1-z)*o -* z*h tilde 


return h 


然后 像 之 前 在 示例 中 所 做 的 那样 调用 此 方法 : 


for i in train inputs: 
output = gru cell(i, output) 
output — tf.nn.dropout (output,keep prob-1.0-dropout) 
outputs.append (output) 


3. 示例 生成 的 文本 


下 面 展 示 GRU 在 对 数据 集 进行 第 1 步 训练 和 进行 26 步 训 练 后 生成 的 文本 。 
第 1 步 学 习 后 产生 的 文本 : 


ce that the said the said of and sher the said the aged king, when that hat have 
she head was ing-maid, which the bride, and such it, and the said thave heart with 
a was ing, how the said was of how said was ing-maid thad ther, and have him the 
there he said the shere, but the said, and which a deacest the which a ded mame 
her that ing the king's saided to her the wase was ing, the saider, to the 

dereess was ing-mall him and and wast he heart whe she went ther the was to the 
deserved her, she had had that the such it went in and and wast her the way to to 
the said, and the which the bride was into then her saw he had that the breart to 
here, and the king-maid, and broid, but to then the said, and the said to the said, 
the whene hered when the such a deace was to her, and have shere then she king, 
and the whice he had to her here the went the said, and when the such ther the was 
that that she was the such a deach was to him and then he heart the heaced when 


the such a king-meart and the w 


第 26 步 学 习 后 产生 的 文本 : 


over the road to the forest and was to take you down again. 


then they had so much, and said, the king's daughter to his room, and she had 
been into the room what had to the horse. the head at the king, the hearth, and 
they had given him, and that it was that her heart, and they had give him that they 
were some him to his son, and the king, that i have brought the 

king's son, and the maiden, and the king said, "the king's daughter to the forest, 
which had so much again, and they had been the heart, whereupon it in the paddock, 
and the prince was so that the king said, then they made himself, and that it was the 


master's daughter was in this the master loses away again. the king's head of 
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this, and she saw the father into him, and when he was to say, and the king said 
the maiden and said, "i have not his head and the king's house, and the man said 
the kingdom, and the old king's son to be over the door white, and that the king 


said, "if the king's head off her, and said, i have been cha 


我 们 可 以 看 到 ， 就 文本 质量 而 言 ， 与 标准 LSTM 相 比 ，GRU 没有 显示 出 显著 的 质量 改进 。 然 
m, GRU 的 输出 在 文本 中 似乎 比 LSTM 更 频 索 地 重复 使 用 单词 〈 例 如 单词 King) 。 这 可 能 是 由 于 
模型 的 简化 (与 标准 LSTM 中 的 两 个 状态 相 比 ， 仅 具有 单个 状态 ) 导致 长 期 记忆 受到 损害 。 


8.6.3 ”市 身 视 孔 连 接 的 LSTM 

下 面 讨论 融 堪 视 孔 连接 的 LSTM 以 及 它们 与 标准 LSTM 的 不 同 之 处 。 接 下 来 将 讨论 它们 的 实 
现 ， 然 后 使 用 带 宫 视 孔 连接 的 LSTM 模型 生成 文本 。 

1. [EIA 


下 面 简 单 看 一 下 带 有 频 视 孔 连接 的 LSTM. RAILLER EX BRTTORB ATI 3081 TRIS H1) 
直接 得 看 细胞 状态 的 方式 ， 而 不 是 等 竺 外 部 隐藏 状态 《〈 见 图 8-5) 。 


85 ”一 个 带宽 视 孔 连 接 的 LSTM 细胞 示例 图 
2. 相关 代码 


这 里 需要 注意 的 是 , 保持 对 角 线 的 帘 视 了 筷 连 接 。 我 们 发 现 ， 对 于 这 种 语言 建 模 任 务 ， 非 对 角 突 
视 孔 连 接 (由 Gers 和 Schmidhuber 在 他 们 的 论文 《Recurrent Nets that Time and Count, Neural 
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Networks) Hih) 对 性 能 的 不 利 影响 大 于 它们 提供 的 帮助 。 因 此 ， 我 们 采用 了 一 种 不 同 的 变 体 ， 
使 用 对 角 线 堪 视 孔 连 接 ， 如 Sak, Senior 和 Beaufays 在 他 们 的 论文 《Long Short-Term Memory 
Recurrent Neural Network Architectures for Large Scale Acoustic Modeling》 中 所 使 用 的 。 


以 下 是 代码 实现 : 


def lstm with peephole cell(i, o, state): 
input gate = tf.sigmoid(tf.matmul(i, ix) + state*ic *tf.matmul(o, im)-*ib) 
forget gate-tf.sigmoid(tf.matmul(i, fx) + state*fc +tf.matmul (o, fm) +fb) 
update = tf.matmul(i, cx) + tf.matmul(o, cm) + cb 
state = forget gate * state + input gate * tf.tanh(update) 
output gate-tf.sigmoid(tf.matmul(i, ox) + state*oc *tf.matmul (o, om) *ob) 


return output gate * tf.tanh(state), state 


然后 将 为 每 个 batch 输入 调用 此 方法 ， 以 贯穿 所 有 时 间 步 骤 (num unrollings 时 间 步 又) , — 
下 面 的 代码 所 示 : 


for i in train inputs: 
output, state — lstm with peephole cell(i, output, state) 
output = tf.nn.dropout (output keep prob-1.0-dropout) 
outputs.append (output) 


3. 示例 生成 的 文本 


下 面 展 示 带 窥视 孔 连接 的 LSTM 模型 在 对 数据 集 进行 第 1 步 训练 和 进行 26 步 训 练 后 生成 的 文 
本 。 
第 1 步 学 习 后 产生 的 文本 : 


apotut whe wher he whe ther to was the wit was so that wit was she was ther that 
to the the to was was whe the che was the with he cou whe cas to the the that and the 
wou to the ther ther to was so to ther he cas the cas ther the that to the the he che 
whe the cou wer was ther he cout the the that and the was that the her he win the whe 
was whe was the whe cout the to wit to the the that ther the ther whe cou the cou the 
whe cou wer the whe whe cas to to whe cout he wou was ther that the cou ther he cou 
the was the cou was the whe cou was wit to the the the the the that whe whe was was 
the was she che whe whe cas was was was the wou whe wout the to shat the to so the 
to the che cou ther he cas to the he cthe he whe che the was she cou ther the to to 
ther ther to sher he was she whe whe whe cout he was so the the he cthe that and as 
ther the che was so the the her ther the whe the whe che cas the was she wou the wou 


whe the che whe che thas the he win to he cout to was the cou ther he whe 


第 26 步 学 习 后 产生 的 文本 : 


he was the king, and when they shall because took and said, and then the the 
the the maiden his back the king, and when the whole and said, then the the kinger, 
and when she was they the the that his been to the said to the whome, then so the 
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there, and when he said the the king's said, the said, "that they the that to the 
king's said the greaved the grand the king's was she her, the the king, and 

the the that had to the king's had that the that they were the said, "i came, 
and the gread them. the whole to the the that in the greed to they the king's said 
the the the that that the king, and that to the king's was to the kill, that they 
the king to the the took her. when the that that 

the that he was 

not the great the great of her they had not the king's was and when she wanted 
to his bring to they had took the was and with you shall of the said them, when 
she said, "then her, the the that her, and the the kind to his bring to said, as 
the that they the great the that the beather, the 


与 标准 LSTM 或 GRU 生成 的 文本 相 比 , iA SU UEBER] LSTM 产生 的 文本 似乎 在 语法 上 表 
现 较 差 。 接 下 来 让 我 们 看 看 每 种 模型 在 困惑 度 方面 进行 定量 比较 的 情况 。 


8.6.54 随 着 时 间 的 推移 训练 和 验证 困惑 度 


在 图 8-6 中 ,我们 将 绘制 LSTM、 有 具有 堪 视 孔 连接 的 LSTM 和 GRU 随时 间 的 困惑 度 表现 情况 。 
首先 , 我 们 可 以 看 到 , 不 使 用 Dropout 时 可 以 明显 减少 训练 困惑 度 。 但 是 , 我 们 不 应 该 得 出 Dropout 
会 对 性 能 产生 负面 影响 的 结论 ， 因 为 这 种 吸引 人 的 表现 是 由 于 过 度 拟 合 的 训练 数据 造成 的 。 从 图 
8-6 中 可 以 看 出 这 一 点 。 这 向 我 们 展示 了 Dropout 事实 上 有 助 于 我 们 完成 语言 生成 任务 。 


LSTM 各 类 变 体 的 训练 数据 的 困惑 度 表 现 情况 


—*— LSTM + Dropout 

-~ 全 ~- LSTM 

一 一 LSTN (Peephole) + Dropout 
—»-. GRU + Dropout 


—e— LSTM + Dropout 

--- LSTM 

一 一 LSTM (Peephole) + Dropout 
—% GRU + Dropout 


10 15 
时 间 步 (Time Step) 


图 8-6 ”截至 目前 ， 随 着 时 间 的 推移 ，LSTM 各 类 变 体 的 训练 数据 和 验证 数据 的 困惑 度 的 变化 情况 
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此 外 ， 从 使 用 Dropout 的 所 有 方法 中 ， 我 们 可 以 看 到 LSTM 和 GRU 提供 了 很 好 的 性 能 。 一 个 令 
人 惊讶 的 观察 结果 是 ， 具 有 敌视 了 筷 连 接 的 LSTM 产生 最 差 的 训练 困惑 和 稍微 差 的 验证 困惑 度 。 这 意味 
着 帘 视 筷 连接 不 会 为 解决 我 们 的 问题 而 增加 任何 价值 ， 而 是 通过 向 模型 引入 更 多 参数 来 使 优化 变 得 困 
难 。 具 体 表现 情况 如 图 8-6 所 示 。 读 者 也 可 以 在 代码 文件 plot_perplexity_over-time.ipynb 中 目 行 查看 。 


目前 的 文献 表明 ，LSTM 和 GRU 之 间 没 有 明显 的 赢家 ， 而 是 在 很 大 程度 上 取决 于 具体 的 


工作 任务 (AI Empirical Evaluation of Gated Recurrent Neural Networks on Sequence 
Modeling». Chung 等 ，NIPS 2014 深度 学 习 研 讨 会 ，2014 年 12 月 )。 


8.7 ”优化 LSTM 一 一 集束 搜索 


正如 我 们 前 面 看 到 的 ， 生 成 的 文本 可 以 被 改进 。 现 在 ， 让 我 们 看 看 在 第 7 章 “ 长 短期 记忆 ”中 
讨论 的 集束 搜索 是 否 有 助 于 提高 性 能 。 在 集束 搜索 中 ， 我们 将 向 前 看 大 干 步 又 ( 称 为 集束 〉， 并 获 
得 每 个 集束 具有 最 高 联合 概率 的 集束 (双边 型 序列 ) 。 联 合 概率 是 通过 在 集束 中 乘 以 每 个 预测 的 二 
元 模型 的 预测 概率 来 计算 的 。 注意 ， 这 是 一 个 信 焚 搜索 ， 意 味 着 随 着 树 的 增长 , 我们 将 迭代 地 计算 
树 的 每 个 深度 的 最 佳 候 选项 。 应 该 注意 的 是 ， 这 种 搜索 不 会 导致 全 局 最 优 集束 。 


8.7.1 实现 集束 搜索 


为 了 实现 集束 搜索 , 我 们 只 需要 改变 文本 生成 技术 ,训练 和 验证 操作 保持 不 变 , 但 是 代码 将 比 
我 们 之 前 看 到 的 文本 生成 操作 流程 更 复杂 。 相 关 代 码 见 ch8 文件 夹 中 的 代码 文件 
8 Istms for text generation.ipynb 中 的 集束 搜索 部 分 。 

首先 ， 定 义 集束 长 度 (我 们 未 来 看 到 的 步骤 数 ) 和 beam neighbors (我 们 在 每 个 时 间 步 长 上 比 
较 的 候选 项 数量 ) : 


beam length = 5 


beam neighbors - 5 
我 们 将 定义 beam. neighbors 的 占 位 符 数 ， 以 便 在 每 个 时 间 步 长 保持 最 佳 候选 项 : 


sample beam inputs = [tf.placeholder(tf.float32, shape-[1, vocabulary size]) 


for _ in range (beam neighbors)] 


接 下 来 , 定义 两 个 占 位 符 来 保存 发 现 的 最 佳 全 局 集束 索引 和 本 地 维护 的 最 佳 候选 集束 索引 ，, 我 
们 将 用 它们 进行 下 一 预测 阶段 的 预测 : 
best beam index = tf.placeholder (shape=None, dtype-tf.int32) 


best neighbor beam indices - tf.placeholder(shape-[beam neighbors], 


dtype-tf.int32) 
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然后 为 每 个 集束 候选 项 定义 状态 和 输出 变量 ， 就 像 我 们 之 前 为 单个 预测 所 做 的 那样 : 


saved sample beam output = [tf.Variable(tf.zeros([1, num nodes])) for in 
range (beam neighbors) ] 
saved sample beam state = [tf.Variable(tf.zeros([1, num nodes])) for in 


range (beam neighbors) ] 
我 们 还 将 定义 状态 重 置 操作 : 


reset sample beam state = tf.group(*[saved sample beam output [vi]. 
assign(tf.zeros([1,num nodes])) for vi in range (beam neighbors)], 
*[saved sample beam state[vi].assign(tf.zeros([1, num nodes])) for 


vi in range (beam neighbors)]) 
此 外 ， 需 要 对 每 个 集束 的 单元 输出 和 预测 进行 计算 : 
# 我 们 计算 每 个 集束 的 1stm_cell 状态 和 输出 


sample beam outputs, sample beam states = [],[] 
for vi in range (beam neighbors): 
tmp output, tmp state — lstm cell( sample beam inputs[vi], 
saved sample beam output[vi], saved sample beam state[vi] ) 
sample beam outputs.append(tmp output) 
sample beam states.append(tmp state) 
# 对 于 给 定 的 一 组 集束 ， 输 出 大 小 为 beam_neighbors 的 预测 向 量 列表 ， 每 个 集束 具有 完整 词汇 表 的 预测 
sample beam predictions = [] 
for vi in range (beam neighbors): 
with tf.control dependencies([saved sample beam output[vi]. 
assign(sample beam outputs[vi]), saved sample beam state[vi]. 
assign (sample beam states[vi])]): 
sample beam predictions.append(tf.nn.softmax(tf.nn.xw plus b 


(sample beam outputs[vi], w, b))) 


接 下 来 ,定义 一 组 新 的 操作 ,用 于 更 新 每 个 集束 的 状态 和 输出 变量 ， 并 在 每 个 步骤 中 找到 最 佳 
集束 候选 索引 。 这 对 于 每 个 步骤 都 很 重要 , 因为 最 佳 集 束 候 选项 将 不 会 在 给 定 深 度 处 从 每 株 树 均 勾 
地 分 支出 来 。 图 8-7 显示 了 一 个 示例 。 我 们 将 使 用 粗 体 字 和 箭头 指示 最 佳 集 束 候选 项 。 


was hunting in t^e forest 


was hunting in the forest the king was hunting in the forest 


king was hunting in the forest the king was hunting in the forest in the 


8-7 ”集束 搜索 说 明了 每 步 更 新 集束 状态 的 要 求 


kng was hunbng orest 
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正如 这 里 所 看 到 的 ， 候 选项 不 是 被 均匀 采样 的 ,在 给 定 深度 处 总 是 有 一 个 来 和 目 子 树 〈 一 组 从 同 
一 点 开始 的 箭头 ) 的 候选 项 。 例 如 ， 在 深度 2 处 ， 没 有 从 hunting 一 king 路 径 生 成 的 候选 项 ， 因 此 
我 们 为 该 路 径 计 算 的 状态 更 新 不 再 有 用 。 所 以 我 们 为 该 路 径 维 护 的 状态 必须 奉 换 为 king 一 was 路 
径 的 状态 更 新 , 因为 现在 有 两 条 路 径 共享 父 节点 king 一 was. 使 用 以 下 代码 对 状态 进行 此 类 蔡 换 : 


Stacked beam outputs = tf.stack(saved sample beam output) 


stacked beam states = tf.stack(saved sample beam state) 


update sample beam state = tf.group( 
*[saved sample beam output[vi].assign(tf.gather nd(stacked beam outputs, 
[best neighbor beam indices[vi]])) for vi in range (beam neighbors)], 
*[saved sample beam state[vi].assign(tf.gather nd(stacked beam states, 


[best neighbor beam indices[vi]])) for vi in range (beam neighbors)]) 


8.7.2 使 用 集束 搜索 生成 文本 的 示例 


让 我 们 看 看 LSTM 是 如 何 通 过 集束 搜索 执行 的 ， 它 看 起 来 比 以 前 更 好 : 


ugh, and said. then two paddock 

would certainly have 

brought it again. but the ground, but when the father said. the paressed the 
master, heard that i cannot. when the father said 

that it one of the second 

tired, and threatening she was away. the king's son paddock coming out, he said, 
i have not. have you 

not seen little red-stockings. the paddock says, 

no, i has not seen it. the king's son paddock crown where off his hand. the 
king's son paddock crown where he had before the paddock came, and the paddock cries, 
huhu. 

then thereupon he could not recognize her to that the paddock cries, huhu, huhu, 
huhu. but the golden came for the child, and when she spread out his little 

sister, had becomes out, and he came ball, and the 

paddock says, 

no, no, i have take you do. when he cried, the paddocked at last. the paressed 
the master wanted again. 

then the 

paddock comes out, thereupon the child inquires rosy cheeks, and the paddock 
cries, huhu. 


then thereupon he could not received 


与 LSTM 产生 的 文本 相 比 ， 该 文本 在 保持 文本 语法 一 致 性 的 同时 ， 似 乎 具有 更 多 的 变化 。 因 
此 ， 集 束 搜索 有 助 于 产生 质量 更 好 的 预测 ， 而 不 是 一 次 预测 一 个 词 。 此 外 ， 我 们 看 到 LSTM 结合 
故事 中 的 不 同 元 素 提出 了 有 趣 的 概念 。 但 是 ,在 一 些 情况 下 ,单词 组 合并 没有 多 大 意义 。 下 面 来 看 
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如 何 进一步 改进 我 们 的 LSTM。 
8.8 改进 LSTM 一 一 使 用 词 而 不 是 n-gram 生成 文本 


在 这 里 ， 我 们 将 讨论 改进 LSTM 的 一 些 方法 。 首 先 ， 我 们 将 讨论 如 果 使 用 One-Hot 编码 词 特 
征 ， 模 型 参数 的 数量 是 如 何 增 长 的 。 这 促使 我 们 使 用 低 维 词 回 量 而 不 是 One-Hot 编码 问 量 。 然 后 ， 
我 们 将 讨论 与 使 用 bigrams 相 比 ， 如 何在 代码 中 使 用 词 回 量 来 生成 质量 更 高 的 文本 。 此 部 分 的 代码 
位 于 ch8 文件 夹 中 的 8 Istm word2vec.ipynb 文件 中 。 


8.8.1 维度 问题 


阻止 我 们 使 用 词 而 不 是 n-gram 作为 LSTM 输入 的 一 个 主要 限制 是 ， 这 将 极 大 地 增加 模型 中 的 
参数 数量 。 让 我 们 通过 一 个 例子 来 理解 这 一 点 。 考虑 到 我 们 有 一 个 大 小 为 500 的 输入 和 一 个 大 小 为 
100 的 细胞 状态 。 这 将 导致 总 共 大 约 有 240000 个 参数 (不 包括 softmax 层 ) ， 如 下 所 示 : 


~ 4X(500X100+100X100+100) 2240000 
现在 我 们 将 输入 的 大 小 增加 到 1000， 参 数 的 总 数 大 约 是 440000， 参 数 个 数 如 下 : 
~ 4X(1000X100+100X100+100) = 440 000 


正如 上 面 看 到 的 ， 对 于 输入 维度 增加 500 个 单位 ， 参 数 数量 增加 了 近 200 000。 这 不 仅 增 加 了 
计算 复杂 度 ， 而 且 由 于 大 量 参数 的 存在 增加 了 过 度 拟 合 的 风险 。 因 此 ,我 们 需要 对 输入 的 维度 进行 
限制 。 


8.8.2 完善 Word2vec 


与 One-Hot 编码 相 比 ，Word2vec 不 仅 可 以 给 出 词 的 低 维 特征 表示 ， 而 且 可 以 给 出 语义 上 合理 
的 特征 。 为 了 理解 这 一 点 ， 我 们 考虑 三 个 词 : cat. dog 和 volcano。 如 果 只 对 这 些 词 进行 One-Hot 
编码 ， 并 计算 它们 之 间 的 欧 几 里 得 距离 ， 将 如 下 : 


distance(cat,volcano) = distance(cat,dog) 
wW EH] ISHRONZ IE. KaU TX 
distance(cat,volcano) »distance(cat,dog) 


我 们 希望 这 些 特征 能 够 代表 后 者 ,因为 相似 的 两 个 词 比 不 相似 的 两 个 词 具 有 更 小 的 距离 。 因 此 ， 
该 模型 能 够 生成 质量 更 好 的 文本 。 
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8.8.3 使 用 Word2vec 生成 文本 


这 里 的 LSTM 比 标准 LSTM 复杂 得 多 ， 因 为 我 们 在 输入 和 LSTM KRIA TANTRA. B 
8-8 描述 了 LSTM-Word2vec 的 整体 结构 ， 相 关 代 码 见 ch8 文件 夹 中 的 8_lstm_ word2vec.ipynb 文件 。 


输出 单词 (Wi 


i; 6G fe " 


i E F. 


输入 单词 (W, ) 


8-8 ”一 种 基于 词 向 量 的 LSTM 语言 建 模 结构 


我 们 将 首先 使 用 连续 词 袋 (CBOW ) 模型 学 习 词 癌 量 。 以 下 是 Word2vec 模型 学 到 的 一 些 最 佳 
关系 : 


与 will 最 接近 的 单词 : shall, can, must, may, 

与 of 最 接近 的 单词 : against, knocked, tongue, pulled, 
与 have 最 接近 的 单词 : marry, had, receive, give, 

与 i 最 接近 的 单词 : 'i, yourself, we, i., 


现在 可 以 将 词 问 量 而 不 是 One-Hot 编码 的 回 量 提供 给 LSTM 。 为 此 ， 我 们 合并 了 
t£nn.embedding lookup 函数 ， 代 码 如 下 : 
for ui in range (num unrollings): 


train inputs.append(tf.placeholder(tf.int32, shape-[batch size], 


name-'train inputs $d'$ui)) 
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train inputs embeds.append(tf.nn.embedding lookup (embeddings, 


train inputs [uil])) 


对 于 更 加 通用 的 语言 建 模 任务 ， 我 们 可 以 使 用 现 有 的 预 训练 词 向 量 。 通 过 从 具有 数 十 亿 
个 单词 的 文本 语料库 中 学 习 而 找到 一 些 词 向 量 ， 这 些 词 向 量 可 以 免费 下 载 和 使 用 。 在 这 
里 ， 我 们 将 列 出 几 个 可 用 的 词 向 量 的 存储 库 : 

e Word2vec: https://code.google.com/archive/p/word2vec/ 

e Pretrained GloVe word vectors: https://nlp.stanford.edu/projects/glove/ 


e fastText word vectors: https://github.com/facebookresearch/fastText/blob/master/pretrained- 


vectors.md 
až, dTAÀÍLIEZTS JOE UE IRSE, ALKI A C4. AU X 
将 大 量 的 词 向 量 存 储 库 用 于 几 千 个 单词 的 词汇 表 ， 那 将 是 一 大 笔 计算 开销 。 此 外 ， 由 于 
我 们 通过 文本 生成 来 生成 “故事 ”， 因 此 在 学 习 的 过 程 中 甚至 可 能 根本 不 会 使 用 某 些 独特 
的 单词 (例如 elves 和 water-nixie ). 


其 余 代 码 类 似 于 我 们 之 前 讨论 的 LSTM 细胞 计算 、 损 失 、 优 化 和 预测 。 但 是 ， 这 里 的 输入 大 
小 不 再 是 词汇 量 大 小 ， 而 是 词 同 量 大 小 。 


8.84 ”使 用 LSTM-Word2vec 和 集束 搜索 生成 文本 的 示例 
以 下 文本 由 LSTM-Word2vec 生成 (在 删除 见 余 空间 的 简单 预 处 理 步 又 之 后 ) ， 现 在 这 些 文字 
看 起 来 比较 靠 谱 了 : 


the devil has told her that the king who had told her how his brothers had been 
UNK , and had put the UNK in her arms . when she came to the king , and the king 


said, `` my dear wife , you shall be mine , i am UNK . the king said , i will not 
find it . '' the king said , `` i feel so UNK that the king 's son , and i will 
UNK herself . '' then the king said , `` i feel as if it was UNK , as much as a 
reward . but the king said , i will not find it . '' the king said, `` i feel so 
UNK that the king 's daughter . the king said to her , `` my dear wife , you shall 
be mine , and i am UNK . the king said , i have not . '' and the king said , 


i feel as if it was so beautiful that they had ever UNK . when the king saw that 

the king said , `` i feel as if it was UNK for it . '' the king said , `` i feel 

as if it was UNK . then the king said , i will not find it . '' the king said , 
` i feel so UNK , and 


可 以 看 到 这 里 没有 重复 的 文本 ， 就 像 我 们 在 标准 RNN 中 看 到 的 那样 ， 在 大 多 数 情况 下 这 些 文 
本 看 起 来 语法 正确 并 且 拼 写 错误 很 少 。 

人 至此， 我 们 已 经 分 析 了 标准 LSTM、 市 有 宵 视 孔 连 接 的 LSTM、GRU、 市 有 集束 搜索 的 LSTM 
以 及 使 用 Word2vec 进行 集束 搜索 的 LSTM 来 生成 文本 的 情况 。 现 在 我 们 再 来 看 看 这 些 模型 之 间 的 


242 | TensorFlow 与 自然 语言 处 理应 用 


定量 比较 情况 。 
8.8.5 困惑 度 随 着 时 旧 推 移 的 变化 情况 


在 图 8-9 中 将 绘制 出 我 们 已 经 学 习 过 的 的 LSTM、 带 有 宕 视 孔 连接 的 LSTM、GRU 和 使 用 
Word2vec 特性 的 LSTM 等 模型 的 困惑 度 在 时 间 上 的 变化 情况 。 为 了 更 加 有 意义 , 我 们 还 将 比较 其 
他 模型 : 使 用 词 向 量 和 Dropout 的 三 层 深度 的 LSTM。 我 们 可 以 从 使 用 Dropout 的 方法 (减少 过 度 
拟 合 的 方法 ) 中 看 到 , 具有 Word2vec 特征 的 LSTM 显示 出 良好 的 结果 。 这 里 并 未 声明 具有 Word2vec 
的 LSTM， 仅 基于 有 具体 数值 表现 出 良好 的 性 能 ， 其 实 还 应 考虑 现实 问题 的 难度 。 在 Word2vec 设置 
中 ， 我 们 用 于 学 习 的 最 小 单位 是 单词 ， 与 使 用 bigram 的 其 他 模型 不 同 。 由 于 词汇 量 大 ， 与 bigram 
级 别 相 比 ， 单 词 级 别 生成 的 语言 更 具有 挑战 性 。 在 单词 级 别 上 与 基于 bigam 的 模型 实现 同样 的 训 
练 ， 在 困惑 度 方面 ， 单 词 级 别 的 表现 被 认为 更 佳 。 我 们 看 一 下 验证 的 困惑 度 ， 可 以 发 现 基 于 词 向 量 
的 方法 表现 出 更 高 的 验证 困惑 度 。 这 是 可 以 理解 的 ， 因 为 词汇 量 大 ， 所 以 任务 更 具 挑 战 性 。 另 一 个 

意义 的 观察 是 比较 单 层 LSTM 和 深度 LSTM。 可 以 看 到 深度 LSTM 随 着 时 间 的 推移 显示 出 更 低 且 稳 
定 的 验证 困惑 度 ， 这 使 我 们 相信 深度 模型 通常 会 提供 更 好 的 效果 。 这 里 需要 注意 的 是 ， 我 们 没有 给 出 
使 用 集束 搜索 的 结果 ， 是 因为 集束 搜索 仅 影响 预测 ， 而 对 训练 困惑 度 没 有 影 啊 。 

LSTM 各 类 变 体 的 训练 数据 的 困惑 度 表 现 情况 
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图 8-9 截至 目前 ， 随 着 时 间 的 推移 ，LSTM 各 类 变 体 的 训练 数据 和 验证 数据 的 困惑 度 的 变化 情况 
8.9 使 用 TensorFlow RNN API 


本 节 研 究 如 何 使 用 TensorFlow RNN API 使 代码 更 简单 .TensorFlow RNN API 包 含 各 种 与 RNN 
相关 的 函数 ， 这 有 助 于 我 们 更 快 、 更 轻松 地 实现 RNN。 下 面 使 用 TensorFlow RNN API 实现 我 们 在 
前 面 讨 论 的 相同 示例 。 然 而 ， 为 了 更 加 精彩 ， 我 们 将 实现 一 个 深层 LSTM 网 络 ， 其 中 有 三 层 我 们 
在 比较 中 讨论 过 。 完 整 代 码 见 Chg 文件 夹 下 的 8_ lstm word2vec rn _ apiipynb 文件 。 

首先 ， 我 们 将 定义 占 位 符 ， 用 于 保存 输入 、 标 签 和 相应 的 词 回 量 。 我 们 忽略 了 与 验证 数据 相关 
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的 计算 ， 如 下 : 
# 训练 输入 数据 
train inputs, train labels = [],[] 
train labels ohe - [] 


# 定 义 展 开 的 训练 输入 
for ui in range (num unrollings): 
train inputs.append(tf.placeholder(tf.int32, 
shape-[batch size],name-'train inputs $d'$ui)) 
train labels.append(tf.placeholder(tf.int32, shape-[batch size], 
name — 'train labels $d'$ui)) 
train labels ohe.append(tf.one hot(train labels[ui], 
vocabulary size)) 
# 为 所 有 展开 的 内 容 定义 词 癌 量 查 询 操作 
# 训练 输入 
train inputs embeds = [] 
for ui in range (num unrollings): 


# 我 们 使 用 expand dims 添加 一 个 额外 的 数 轴 ， 因 为 后 面 的 LSTM 细胞 计算 需要 用 到 


train inputs embeds.append(tf.expand dims( tf.nn.embedding lookup 
(embeddings,train inputs[ui]),0)) 


此 后 ， 我 们 将 从 RNN API 的 LSTM 细胞 中 定义 LSTM 细胞 的 列表 : 
+ 这 里 num nodes 是 一 系列 隐藏 层 的 大 小 


cells = [tf.nn.rnn cell.LSTMCell(n) for n in num nodes] 


我 们 还 将 为 所 有 LSTM 细胞 定义 DropoutWrapper, "| LSTM 细胞 的 输入 、 状 态 、 输 出 执行 
Dropout 操作 : 


# 现在 为 每 一 个 LSTM 细胞 定义 一 个 DropoutWrapper 
dropout cells = [ 


rnn.DropoutWrapper(cell-lstm, input keep prob-1.0, 
output keep prob-1.0-dropout, state keep prob-1.0, 
variational recurrent-True, 
input size-tf.TensorShape([embeddings sizel), 
dtype-tf.float32 ) for lstm in cells 
] 


提供 给 该 功能 的 参数 如 下 : 


€ cell: 在 计算 中 使 用 的 RNN 细胞 类 型 。 
€ input keep prob: 执行 Dropout 时 保持 激活 的 输入 单位 数量 (0-1) 。 
€ output keep prob: 执行 Dropout 时 要 保持 激活 的 输出 单位 数量 。 
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€ state keep prob: 执行 Dropout 时 要 保持 激活 的 细胞 状态 的 单位 数量 。 
€ variational recurrent: Gal 和 Ghahramani Æ Theoretically Grounded Application of Dropout 
in Recurrent Neural Networks) "P 5| X & RNN 的 Dropout 的 特殊 类 型 。 


然后 ， 我 们 将 定义 一 个 名 为 initial state 的 张 量 ( 用 零 初始 化 )， 它 将 包含 LSTM BAS CECI 
状态 《隐藏 状态 和 细胞 状态 ) : 


# LSTM 记忆 的 初始 状态 


initial state — stacked dropout cell.zero state(batch size, 


dtype-tf.Float32) 


通过 定义 LSTM 细胞 列表 ,我 们 现在 可 以 定义 一 个 封装 LSTM 细胞 列表 的 MultiRNNCell 对 象 ， 
代码 如 下 : 


+ 首先 定义 一 个 使 用 DropoutWrapper 的 MultiRNNCell 对 象 ( 用 于 训练 ) 
stacked dropout cell = tf.nn.rnn cell.MultiRNNCell(dropout cells) 
# 这 里 定义 一 个 不 使 用 Dropout 验证 和 测试 的 MultiRNNCell 的 对 象 


stacked cell = tf.nn.rnn cell.MultiRNNCell (cells) 


接 下 来 ， 我 们 将 使 用 t£nn.dynamic mn 函数 计算 LSTM 细胞 的 输出 ， 代 码 如 下 : 
# 定义 LSTM 细胞 的 计算 (训练 》 


train outputs, initial state = tf.nn.dynamic rnn( 
stacked dropout cell, tf.concat (train inputs embeds,axis-0), 


time major-True, initial state-initial state) 
对 于 此 功能 ， 我 们 将 提供 几 个 参数 : 


€ cel: 用 于 计算 输出 的 序列 模型 的 类 型 。 在 例子 中 ， 这 是 之 前 定义 的 LSTM 细胞 . 

€ inputs: 这 些 是 LSTM 细胞 的 输入 。 输 入 需要 具有 [num unrollings, batch size, 
embeddings_size] 的 形状 。 因 此 ， 我 们 拥有 该 张 量 中 所 有 时 间 步 长 的 所 有 批 处 理 数据 。 我 
们 将 这 种 类 型 的 数据 称 为 time major， 因 为 时 间 轴 是 第 0 $h. 

€ time major: 决定 了 输入 (输出 ) 张 量 的 前 两 个 定义 参数 表示 的 含义 。 

@ initial state: LSTM 需要 一 个 初始 状态 才能 开始 。 


通过 计算 LSTM 的 最 终 隐 藏 状态 和 细胞 状态 ， 下 面 定 义 logits 〈 从 每 个 词 的 softmax 层 获得 的 
非 标准 化 分 数 ) 和 预测 《每 个 词 的 softmax 层 的 标准 化 分 数 ) : 


# 将 最 终 输 出 重 塑 为 [num unrollings*batch size, num nodes] 
final output = tf.reshape(train outputs,[-1,num nodes[-1]]1) 
# 计算 logits 

logits = tf.matmul(final output, w) + b 


# 计算 预测 


train prediction = tf.nn.softmax(logits) 
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然后 使 logits 重 塑 为 time-major 类 型 的 数据 ， 这 对 于 将 要 使 用 的 损失 函数 是 必要 的 : 


# 将 logits 重 塑 为 time-major 
time major train logits=tf.reshape (logits, [num unrollings,batch size,-1]) 


# 创建 训练 标签 ， 以 便 用 来 计算 损失 函数 


time major train labels = tf.reshape(tf.concat(train labels,axis-0), 


[num unrollings,batch size]) 


我 们 将 确定 从 LSTM 和 softmax 层 计算 的 输出 与 实际 标签 之 间 的 损失 。 为 此 ， 我 们 将 使 用 
tf.contrib.seq2seq.sequence_loss 函数 。 该 函数 广泛 用 于 机 器 翻译 任务 ， 以 计算 模型 输出 翻译 和 实际 
翻译 之 间 的 差异 ， 这 些 翻 译 是 词 序 列 。 同 样 的 概念 可 以 扩展 到 我 们 的 问题 ， 因 为 我 们 基本 上 都 是 输 
出 一 系列 单词 : 


# 我 们 使 用 sequence-to-sequence 损失 函数 来 定义 损失 

# 计算 批 处 理 数据 的 平均 值 

# 我 们 得 到 了 序列 长 度 的 总 和 

loss = tf.contrib.seq2seq.sequence loss( 
logits = tf.transpose(time major train logits,[1,0,2]), 
targets — tf.transpose(time major train labels), 
weights- tf.ones([batch size, num unrollings], 

dtype-tf.float32), 

average across timesteps-False, 


average across batch-True 


) 


loss = tf.reduce sum(loss) 

下 面 来 看 看 这 个 损失 函数 的 参数 。 

€  logits: 之 前 计算 的 非 标准 化 预测 分 数 。 此 函数 接收 按 以 下 形式 排序 的 logits: [batch size; 
num unrollings, vocabulary size]。 为 此 ， 我 们 使 用 tftranspose 函数 。 

€ targets: 批 处 理 或 输入 序列 的 实际 标签 。 这 些 在 [batch size. num unrollings] 中 是 必需 的 。 

€ weights: 我 们 在 时 间 轴 和 batch 轴 上 给 予 每 个 位 置 的 权重 值 。 我 们 不 会 根据 它们 的 位 置 来 
区 分 输入 ， 所 以 将 所 有 位 置 设置 为 1。 

€ average across timesteps: 我 们 不 对 跨 时 间 步 长 的 损失 求 平 均值 。 我 们 需要 跨 时 间 步 长 的 
总 和 ， 因 此 这 里 将 其 设置 为 False。 

€ average across batch: 我 们 需要 对 批 处 理 的 损失 求 平均 值 ， 因 此 这 里 将 其 设置 为 True。 


接 下 来 定义 优化 器 ， 如 下 : 
# 用 于 衰减 学 习 率 


gstep = tf.Variable(0, trainable-False) 
# 运行 此 操作 将 导致 gstep 值 的 增加 ， 从 而 降低 学 习 速 率 
inc gstep = tf.assign(gstep, gstep-*l) 


* Adam 优化 器 和 梯度 裁剪 


246 | TensorFlow 与 自然 语言 处 理应 用 


tf learning rate = tf.train.exponential decay(0.001,gstep,decay steps-1, 
decay rate-0.5) 

print('Defining optimizer') 

optimizer — tf.train.AdamOptimizer(tf learning rate) 

gradients, v = zip(*optimizer.compute gradients (1loss)) 

gradients, = tf.clip by global norm(gradients, 5.0) 

optimizer = optimizer.apply gradients (zip (gradients, v)) 


inc gstep = tf.assign(gstep, gstep-*l) 


定义 了 所 有 函数 后 ， 现 在 可 以 运行 代码 文件 中 的 代码 了 。 
8.10 总结 


在 本 章 中 ,我 们 首先 从 文本 自动 生成 的 三 个 方面 (文本 到 文本 的 生成 、 意 义 到 文本 的 生成 、 数 
据 到 文本 的 生成 ) 依次 进行 详细 解读 , 介绍 文本 自动 生成 三 个 方面 的 模型 研究 情况 ,使 我 们 对 于 文 
本 自动 生成 的 基本 技术 路 线 有 了 更 清晰 的 认识 。 

其 次 ,在 LSTM 的 算法 实现 中 ,我 们 利用 格林 兄弟 的 故事 文本 训练 我 们 的 LSTM, 并 要 求 LSTM 
输出 一 个 全 新 的 故事 文本 。 

接着 ， 我 们 就 如 何 使 用 堪 视 孔 连 接 和 GRU 实现 LSTM 进行 了 技术 层面 的 讨论 。 然 后 ， 我 们 在 
标准 LSTM 及 其 变 体 之 间 进 行 了 性 能 比较 。 我 们 看 到 LSTM 与 具有 客 视 孔 连 接 和 GRU 的 LSTM 
相 比 表现 更 佳 。 我 们 意外 地 发 现 筑 视 孔 连接 实际 上 损害 了 模型 性 能 而 不 是 有 助 于 语言 建 模 任 务 。 

然后 ， 我 们 讨论 了 可 能 有 助 于 提高 LSTM 生成 质量 更 好 的 文本 的 各 种 优化 方法 。 第 一 个 优化 
方法 是 集束 搜索 。 我 们 研究 了 集束 搜索 的 实现 ， 并 介绍 了 如 何 逐 步 实现 它 。 然 后 ,我 们 介绍 了 如 何 
使 用 词 向 量 方法 来 使 LSTM 输出 更 好 的 文本 。 

总 之 ，LSTM 是 非常 强大 的 机 器 学 习 模 型 ， 可 以 捕获 长 期 和 短期 的 依赖 关系 。 此 外 ， 与 一 次 预 
测 相 比 ， 集 束 搜索 实际 上 有 助 于 产生 更 晕 真 的 文本 短语 。 此 外 ， 可 以 发 现 相 比 于 使 用 One-Hot 编码 
的 特征 表示 而 言 ， 使 用 词 癌 量 作 为 输入 将 会 获得 更 佳 的 性 能 。 

在 下 一 章 中 ， 我 们 将 讨论 另 一 个 涉及 LSTM 的 NLP 任务 : 生成 图 像 字幕 。 
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在 上 一 章 中 , 我 们 了 解 了 如 何 使 用 LSTM 生成 文本 。 本 章 将 使 用 LSTM 来 解决 更 复杂 的 任务 : 
为 给 定 图 像 生成 合适 的 字幕 。 图 像 到 文本 的 生成 技术 是 指 根据 给 定 的 图 像 生 成 描述 该 图 像 内 容 的 目 
然 语言 文本 ， 例 如 新 闻 图 像 附带 的 标题 、 医 学 图 像 附 融 的 说 明 、 儿 童 教育 中 第 见 的 看 图 说 话 以 及 用 
户 在 微 博 等 互联 网 应 用 中 上 传 图 片 时 提供 的 说 明文 学 ,依据 所 生成 自然 语言 文本 的 详细 程度 及 长 度 
的 不 同 , 这 项 任务 可 以 分 为 图 像 标 题目 动 生成 和 图 像 说 明文 字 上 自动 生 成 。 前 者 需要 根据 应 用 场景 突 
出 图 像 的 核心 内 容 , 例如 为 新 闻 图 片 生成 的 标题 需要 突出 与 图 像 内 容 密切 关联 的 新 闻 事件 ,并 在 表 
达 方 式 上 求 新 以 吸引 读者 的 眼球 ; 而 后 者 通 第 需要 详细 描述 图 像 的 主要 内 容 , 例如 为 有 视力 障碍 的 
人 提供 简洁 翔实 的 图 片 说 明 , 力求 将 图 片 的 内 容 全 面 且 有 条 理 的 陈述 出 来 , 而 在 有 具体 表达 方式 上 并 
没有 具体 的 要 求 。 

对 于 图 像 到 文本 的 目 动 生成 这 一 任务 , 人 类 可 以 到 不 费力 地 理解 图 像 内 容 , 并 按 具 体 需 求 以 目 
然 语 言 句 子 的 形式 表述 出 来 , 然而 对 于 计算 机 而 言 ， 则 是 一 种 新 兴 的 深度 学 习 应 用 ,需要 综合 运用 
图 像 处 理 、 计 算 机 视觉 和 上 自然 语言 处 理 等 几 大 领域 的 研究 成 果 。 这 个 任务 更 加 复 林 ， 因 为 解决 它 涉 
及 多 个 子 任务 ， 例 如 训练 /使 用 CNN 来 生成 图 像 的 编码 向 量 、 学 习 词 同 量 以 及 训练 LSTM 来 生成 
字幕 。 因 此 ， 这 并 不 像 我 们 第 8 章 提 到 的 文本 生成 任务 那样 简单 ,我 们 只 是 以 序列 的 方式 输入 文本 
和 输出 文本 。 作 为 一 项 标志 性 的 交叉 领域 研究 任务 ,图 像 到 文本 的 目 动 生成 吸引 着 来 目 不 同 领 域 研 
完 者 的 关注 。 

自动 生成 图 像 字幕 或 图 像 标 注 具有 广泛 的 应 用 。 最 突出 的 应 用 之 一 是 搜索 引擎 中 的 图 像 检索 。 
目 动 生成 图 像 字 和 医 可 用 于 根据 用 户 的 请 求 检 索 属 于 特定 概念 的 所 有 图 像 (例如 狗 )。 男 一 个 应 用 是 
在 社交 媒体 中 ， 当 用 户 上 传 图 像 时 ， 图像 被 自动 字 笑 化 ， 使 得 用 户 可 以 细 化 生成 的 字幕 或 按 原样 发 
布 。 

本 章 首 先 回 顾 图 像 字 幕 的 主要 发 展 历程 及 其 在 研究 和 行业 部 普 中 的 影响 。 其 次 ,介绍 研究 人 员 
针对 图 像 字幕 而 开发 的 两 个 主要 基于 深度 学 习 的 方案 。 然后 , 对 近年 来 从 图 像 生成 字幕 的 研究 进行 
综述 。 最 后 ， 给 出 一 个 图 像 字 幕 案例 详解 。 我 们 前 期 将 处 理 来 目 数 据 集 (MS-COCO) 的 图 像 以 获 
得 具有 预 训练 郑 积 神经 网 络 (CNN) WERA, CNN 是 我 们 所 熟知 的 擅 于 处 理 图 像 分 类 的 神经 
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网 络 。CNN 将 采用 固定 大 小 的 图 像 作 为 输入 并 输出 图 像 所 属 的 类 别 〈 例 如 狗 、 猫 、 老 席 、 汽 车 和 
树 等 ) 。 使 用 该 CNN 可 以 获得 描述 图 像 的 压缩 编码 向 量 。 然 后 ， 我 们 将 处 理 图 像 的 字幕 ， 以 学 习 
在 字幕 中 找到 的 词 同 量 。 我 们 还 可 以 使 用 预 训练 的 词 器 量 来 完成 此 任务 。 最 终 , 在 获得 图 像 和 词 编 
码 后 ， 我 们 将 它们 输入 LSTM 并 在 图 像 及 其 各 目的 字幕 上 进行 训练 ， 以 便 为 一 组 未 知 的 图 像 〈 验 
证 集 ) 生成 对 应 的 字幕 。 


9.1 简要 介绍 


除了 作为 对 话 系统 不 可 或 缺 的 组 成 部 分 外 , 日 然 语言 生成 (NaturalLanguageGeneration, NLG) 
还 在 文本 摘要 、 机 器 翻译 、 图 像 和 视频 字幕 以 及 其 他 上 自然 语言 处 理 C(NLP) 应 用 中 发 挥 着 关键 作用 。 
本 章 不 是 对 一 般 的 NLG 技术 进行 全 面 的 分 析 ， 而 是 在 一 个 特殊 的 应 用 中 对 应 用 范围 进行 了 限制 ， 
从 而 完成 图 像 字 幕 自 动 生成 任务 。 由 于 近年 来 深度 学 习 的 进步 ，NLG 任务 也 取得 了 巨大 进展 。 
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长 期 以 来 , 人 们 一 直 认 为 总 有 一 天 机 器 可 以 拥有 和 人 类 一 样 的 智能 去 理解 整个 视觉 的 世界 。 由 
于 深度 学 习 的 进步 (Hinton 等 ，2012; Dahl 等 ，2011; Deng 和 Yu, 2014) ， 现 在 研究 人 员 可 以 
构建 非常 深 的 卷 积 神经 网 络 CCNNO ， 完 成 大 规模 图 像 分 类 等 任务 ， 并 达到 令 人 印象 深刻 的 低 错 
VA CKrizhevsky ^$, 2012; He 5$, 20150 。 在 这 些 任务 中 ， 为 了 训练 用 于 预测 给 定 图 像 类 别 的 
模型 , 可 以 首先 用 来 自 预定 义 类 别 集合 的 类 别 标签 对 训练 集合 中 的 每 个 图 像 进 行 注释 。 通 过 这 种 完 
全 监督 的 训练 ， 计 算 机 可 以 学 习 如 何 对 图 像 进行 分 类 。 

当 我 们 希望 计算 机 理解 复杂 场景 时 , 这 种 情况 可 能 变 得 更 具 挑 战 性 。 图 像 字 医 自 动 生 成 就 是 这 
样 的 任务 之 一 。 而 挑战 来 自 两 个 方面 。 首 先 ， 为 了 生成 一 个 语义 有 意义 、 句 法 流畅 的 字幕 ， 系 统 需 
要 检测 图 像 中 显著 的 语义 概念 ， 理 解 它们 之 间 的 关系 ， 并 对 图 像 的 整体 内 容 进行 连贯 的 描述 ， 这 涉 
及 对 象 识 别 之 外 的 语言 和 常识 知识 的 建 模 工作 。 此 外 ， 由 于 图 像 中 场景 的 复杂 性 ,很 难 用 简单 的 类 
别 属性 来 表示 它们 之 间 颗 粒度 的 细微 差别 。 而 关于 训练 图 像 字幕 模型 的 监督 工作 是 为 了 用 自然 语言 
对 图 像 的 内 容 进行 全 面 描 述 , 由 于 图 像 中 的 子 区 域 和 描述 中 的 词 之 间 缺 乏 细 粒 度 的 对 应 ， 有 时 这 种 
描述 是 模糊 的 。 

此 外 ， 图 像 字幕 自动 生成 与 图 像 分 类 任务 不 同 。 在 图 像 分 类 任务 中 , 将 图 像 与 基础 事实 进行 比 
较 之 后 , 我 们 可 以 很 容易 地 判断 分 类 的 输出 是 正确 的 还 是 错误 的 , 且 有 多 种 有 效 的 方式 来 描述 图 像 
的 内 容 。 而 我 们 要 判断 生成 的 字幕 是 否 正确 以 及 达到 何 种 程度 ， 则 很 难得 出 结论 。 在 实践 中 ， 通 各 
采用 人 工 的 方法 来 判断 给 定 图 像 字 幕 的 质量 。 然 而 ， 由 于 人 工 评 价 成 本 高 、 耗 时 长 ， 人 们 提出 了 许 
多 上 自动 化 的 度量 标准 ， 这 些 度量 标准 主要 用 于 加 速 系统 的 开发 周期 。 

早期 的 图 像 字 幕 处 理 方法 大 致 可 以 分 为 两 大 类 。 一 类 是 基于 模板 匹配 的 CFarhadi 等 ，2010; 
Kulkarni 55, 2015) 方法 ， 这 类 方法 从 检测 图 像 中 的 对 象 、 动 作 、 场 景 和 属性 开始 ， 然 后 将 它们 填 
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充 到 手工 设计 的 刚性 的 句子 模板 中 。 这 类 方法 产生 的 字幕 并 不 总 是 流畅 和 富有 表现 力 的 。 另 一 类 是 
基于 检索 的 方法 , 该 方法 首先 从 大 型 数据 库 中 选择 一 组 视觉 上 相似 的 图 像 , 然后 将 检索 到 的 图 像 的 
字幕 转换 为 适合 查询 的 图 像 (Hodosh 等 ，2013; Ordonez 等 ，2011) 。 基 于 查询 图 像 的 内 容 而 修 
改 单 词 的 灵活 性 较 小 ， 因 为 它们 直接 依赖 于 训练 图 像 的 字幕 ， 并 且 不 能 生成 新 的 字幕 。 
利用 深度 神经 网 络 就 可 以 通过 生成 流畅 和 富有 表现 力 的 字幕 来 解决 上 面 遇 到 的 这 两 个 问题 , 这 
些 字 幕 也 可 以 推广 到 训练 集 以 外 的 地 方 。 特 别 是 最 近 在 图 像 分 类 中 使 用 神经 网 络 的 成 功 
(Krizhevsky 等 ，2012; He 55, 20150 和 物体 检测 CGirshick, 2015) 激发 了 人 们 对 使 用 神经 网 络 
进行 视觉 字幕 的 浓厚 兴趣 。 


9.3 ”利用 深度 学 习 框 架 从 图 像 中 生成 字幕 


9.3.1 End-to-End 框 染 


最 近 ， 由 于 机 器 翻译 中 序列 到 序列 (Sequence-to-Sequence ) 学 习 的 成 功 (Sutskever 等 ，2014; 

Bahdanau 等 ，2015) ， 研 究 人 员 研 究 了 用 于 图 像 字 幕 的 端 到 端 〈《End-to-End) 的 编码 器 -解码 器 
(Encoder-Decoder) 框架 (Vinyals ^5, 2015; Karpathy 和 Fei-Fei, 2015; Fang 等 ，2015; Devlin 
SF, 2015; Chen I Zitnick, 2015) . [E 9-1 Ji&zr f — ^P BUS AAE T a 3 i - RARO a HI PR FRE X 
系统 (Vinyals $, 20150 。 在 该 框架 中 ， 首 先 通过 全 局 视觉 特征 回 量 对 原始 图 像 进行 编码 ， 该 回 
量 通过 深度 CNN 表示 图 像 的 整体 语义 信息 。 如 图 9-2 所 示 ，CNN 由 几 个 卷 积 层 、 最 大 池 化 、 啊 应 
归 一 化 和 完全 连接 层 组 成 。 在 这 里 ，CNN 在 大 型 InageNet 数据 集 上 接受 了 1000 个 类 别 的 图 像 分 
类 任务 的 训练 (Deng 等 ，2009) 。 该 AlexNet 的 最 后 一 层 包含 1000 个 节点 ， 每 个 节点 对 应 一 个 类 
别 。 同 时 ， 抽 取 倒 数 第 二 个 完全 连接 的 密集 层 作 为 全 局 视觉 特征 癌 量 ， 表 示 整 个 图 像 的 语义 内 容 。 
给 定 一 个 原始 图 像 , 第 二 层 到 最 后 一 层 完全 连接 的 激活 值 通常 被 抽取 为 全 局 视觉 特征 问 量 。 这 种 结 
构 对 于 大 规模 的 图 像 分 类 已 经 非常 成 功 , 并且 所 学 习 的 特征 已 经 显示 出 可 以 应 用 于 各 种 各 样 的 视觉 
任务 中 。 
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9-1] 使 用 CNN 和 RNN 对 图 像 进行 端 到 端 训练 的 自然 语言 生成 (He 和 Deng, 2017) 
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9-2 ”深度 CNN (例如 AlexNet) 被 用 作 图 像 字 幕 系统 的 前 端 (Front-end) 编码 器 
(He 和 Deng, 2017) 


我 们 一 旦 提取 了 全 局 视觉 回 量 ， 就 将 其 输入 到 另 一 个 基于 循环 神经 网 络 (RNN ) 的 解码 器 以 
生成 字幕 ， 如 图 9-3 所 示 。 在 初始 步骤 中 ， 表 示 图 像 总 体 语义 的 全 局 视觉 问 量 被 输入 RNN 中 以 便 
在 第 一 步 计算 隐藏 展 。 同 时 ， 在 第 一 步 中 ， 使 用 句子 开始 符号 <s> 作 为 对 隐藏 层 的 输入 。 然 后 ， 从 
隐藏 导 生 成 第 一 个 单词 。 继 续 此 过 程 ， 在 上 一 步 中 生成 的 单词 将 成 为 下 一 步 隐 藏 层 的 输入 ， 以 生成 
下 一 个 单词 。 这 个 生成 过 程 一 直 进 行 到 生成 句 尾 符号 </s> 为 止 。 在 实践 中 ， 我 们 经 常 使 用 RNN 的 
两 个 变 体 : 长 短期 记忆 网 络 (LSTM，Hochreiter 和 Schmidhuber, 1997) 和 门 控 循环 单元 (GRU， 
Chung 等 ，2015) ， 两 者 都 被 证 明 能 够 有 效 地 训练 和 捕获 长 期 语言 的 依赖 性 CBahdanau 等 ，2015; 
Chung 5r, 2015) , ， 而 且 在 行为 识别 任务 中 得 到 了 成 功 的 应 用 〈Varior 等 ，2016) 。 


a baby holding mouth «/s» 
global visual | A A | 
Vector r 


«s» a baby its mouth 
图 9-3 RNN 用 作 图 像 字幕 系统 的 后 端 (Back-end) 解码 器 (He fl Deng, 2017) 


使 用 上 述 端 到 端 框架 的 代表 性 研究 包括 图 像 字 舌 生 成 (Chen 和 Zitnick, 2015; Devlin 等 ,2015; 
Donahue 等 ，2015; Gan 等 ，2017; Karpathy 和 Fei-Fei, 2015; Mao 等 ，2015; Vinyals 等 ，2015 ) 
和 视频 字幕 生成 (Venugopalan 等 ，2015; Ballas 等 ，2016; Pan 等 ，2016; Yu 等 ，2016) 。 两 种 
方法 的 区 别 主 要 在 于 CNN 架构 的 类 型 和 基于 RNN 的 语言 模型 .例如 , Karpathy 和 Fei-FeiC 2015). 
Mao 等 人 (2015) 在 实验 中 使 用 了 Vanilla RNN 模型 ， 而 Vinyals A (2015) 使 用 了 LSTM 模型 。 
在 Vinyals A (2015 年 ) 实验 的 第 一 步 中 ， 视 觉 特征 回 量 仅 被 输入 RNN 一 次 ， 而 它 在 Karpathy 
和 Fei-Fei (2015 年 ) 实验 的 RNN 的 每 个 时 间 步 长 中 都 有 使 用 。 有 必要 指出 的 是 ， 深 度 CNN 对 于 
图 像 到 文本 应 用 的 成 功 至 关 重 要 ， 它 考虑 了 图 像 输入 的 特殊 平移 不 变 特性 。 
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近期 ，Xu FA (0150 利用 基于 注意 力 机 制 学 习 了 在 字幕 生成 期 间 有 关 图 像 中 聚焦 的 位 置 。 
注意 力 机 制 结构 如 图 9-4 所 示 。 与 简单 的 编码 器 -解码 器 方法 不 同 ， 基 于 注意 力 的 方法 使 用 CNN 不 
仅 生成 全 局 视觉 回 量 ， 还 为 图 像 中 的 子 区 域 生成 一 组 视觉 回 量 ， 这 些 子 区 域 问 量 可 以 从 CNN 的 下 
谷 积 层 中 提取 。 在 语言 生成 中 ， 在 生成 新 词 的 每 个 步骤 中 ，RNN 将 参考 这 些 子 区 域 问 量 ， 并 确定 
每 个 子 区 域 与 当前 状态 相关 的 可 能 性 来 生成 该 词 。 最 终 , 注意 力 机 制 将 形成 一 个 上 下 文 同 量 , 它 是 
关联 可 能 性 加 权 的 子 区 域 视 觉 问 量 之 和 ， 用 于 RNN 对 下 一 个 新 词 进行 解码 。 
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9-4 图 像 字 幕 系统 的 自然 语言 生成 过 程 中 的 注意 力 机 制 〈 来 自 He 和 Deng. 2017) 


Yang 等 人 紧 接 着 进行 这 项 工作 2016) ， 其 中 引入 了 一 个 审查 模块 来 改进 注意 力 机 制 ， 并 且 
Liu &A (016) 进一步 提出 了 一 种 提高 视觉 注意 力 正确 性 的 方法 。 最 近 ，Anderson 4A (2017) 
提出 了 基于 目标 检测 的 自 下 而 上 的 注意 力 模型 ， 展 示 了 图 像 字幕 的 最 新 性 能 。 在 该 框架 中 ， 所 有 参 
数 (包括 CNN, RNN 和 注意 力 模型 ) 都 可 以 从 整体 模型 的 开始 到 结束 部 分 进行 联合 训练 ， 因 此 称 
为 “ 端 到 端 ”。 


9.3.2 组 合 框架 


与 刚刚 描述 的 奖 到 端的 编码 器 -解码 器 框架 不 同 ， 单 独 的 一 类 图 像 到 文本 (Image-to-Text) 方 
法 是 使 用 显 式 语义 -概念 -检测 (Semantic-Concept-Detection〉 过 程 来 生成 字幕 。 检 测 模型 和 其 他 模 
块 通常 是 分 别 进行 训练 的 .图 9-5 给 出 了 Fang 等 人 (2015 ) 提 出 的 基于 语义 -概念 -检测 的 组 合 方法 。 
这 种 方法 类 似 于 语音 识别 中 长 期 存在 的 结构 ， 并 受到 该 结构 的 驱动 ,该 结构 由 声学 模型 、 发 音 模型 
和 语言 模型 的 多 个 模块 组 成 (Baker 等 ,2009; Hinton 等 ,2012; Deng ^5, 2013; Deng 和 O’Shaughnessy， 
2003) 。 
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9-5 基于 语义 -概念 -检测 的 组 合 方 法 的 图 像 字幕 (He 和 Deng, 2017) 
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在 此 框架 中 ， 字 幕 生 成 管道 (Pipeline， 有 时 也 称 为 流水 线 ) 的 第 一 步 是 检测 一 组 语义 概念 ， 
称 为 标记 或 属性 ， 它 们 可 能 是 图 像 描述 的 一 部 分 。 这 些 标记 可 以 属于 任何 词类 ， 包 括 名 词 、 动 词 和 
形容 词 。 与 图 像 分 类 不 同 , 标准 监督 学 习 技术 不 能 直接 应 用 于 学 习 检 测 器 ， 因 为 监督 仅 包 含 整个 图 
像 和 人 工 注 释 的 全 部 字幕 语句 ， 而 与 单词 对 应 的 图 像 语 义 的 边界 是 未 知 的 。 为 了 解决 这 个 问题 ， 
Fang 等 人 (2015) 提出 使 用 多 实例 学 习 (Mnultiple Instance Learning, MIL) 的 弱 监 督 方法 来 学 习 检 
测 器 (Zhang 等 ，2005) 。 而 在 Tran 等 人 (2016) 的 论文 中 , 该 问题 被 视 为 多 标签 分 类 (Multi-Label 
Classification) 任务 。 

在 Fang A (2015) 的 论文 中 , 将 检测 到 的 标签 提供 给 基于 N-Gram 的 最 大 CMax-Entropy) 
语言 模型 来 生成 字幕 假设 的 列表 。 每 个 假设 都 是 覆盖 某 些 标记 的 完整 句子 , 并 且 由 定义 词 序列 概率 
分 布 的 语言 模型 所 建 模 的 语法 进行 规则 化 。 

然后 ,通过 对 整个 句子 和 整个 图 像 计 算 的 特征 的 线性 组 合 (包括 句子 长 度 、 语 言 模型 得 分 以 及 
整个 图 像 和 整个 字幕 假设 之 间 的 语义 相似 性 ) ， 对 所 有 假设 重新 排序 。 其 中 ， 图 像 字 幕 语义 相似 度 
是 通过 深层 多 模 态 相似 度 模型 来 计算 的 , 该 模型 是 先前 为 信息 检索 开发 的 深层 结构 化 语义 模型 的 多 
RAH I (Huang 等 ，2013) 。 这 种 “语义 ”模型 由 一 对 神经 网 络 组 成 ， 用 于 将 每 个 输入 模式 、 图 
像 和 语言 映射 为 公共 语义 空间 中 的 向 量 , 然后 将 图 像 字 幕 语义 相似 性 定义 为 它们 回 量 之 间 的 余弦 相 
似 性 。 

与 端 到 端 框架 相 比 , 组 合 方法 在 系统 开发 和 部 署 方面 提供 了 更 好 的 灵活 性 , 并 有 助 于 利用 各 种 
数据 源 更 有 效 地 优化 不 同 模块 的 性 能 ， 而 不 是 在 有 限 的 图 像 字 幕 配对 上 学 习 所 有 模型 的 数据 。 另 一 
方面 ， 端 到 端 模型 通常 具有 更 简单 的 架构 ,可 以 与 组 合 方法 联合 在 一 起 来 优化 整个 系统 的 不 同 组 件 
进而 获得 更 好 的 性 能 。 

最 近 ， 研 究 人 员 提 出 了 一 类 模型 来 将 显 式 语义 -概念 -检测 集成 在 编码 器 -解码 器 框架 中 。 例 如 ， 
Ballas 等 人 (2016) 将 检索 到 的 句子 应 用 为 附加 的 语义 信息 ， 以 在 生成 字幕 时 指导 LSTM 模型 ， 而 
在 Fang 等 人 的 论文 (20150 、You 等 人 的 论文 (2016) 和 Tran 等 人 (20160. 的 论文 中 ， 他 们 在 生 
成 句子 之 前 使 用 了 语义 -概念 -检测 过 程 。 在 Gan 等 人 〈2017b) 的 论文 中 ， 基 于 检测 出 的 用 于 构成 
字幕 的 语义 概念 的 概率 ， 构 造 语义 组 合 网 络 。 这 一 系列 方法 代表 了 当前 图 像 字 幕 的 最 新 技术 。 

从 架构 和 任务 定义 的 角度 来 看 ， 这 种 用 于 图 像 字 幕 和 语音 识别 的 组 合 框架 具有 多 个 共同 的 主题 。 
这 两 个 任务 都 有 自然 语言 句子 的 输出 ， 只 是 前 者 输入 不 同 的 图 像 像 素 ， 而 后 者 输入 不 同 的 语音 波形 而 
己 。 图 像 字 幕 中 的 属性 检测 模块 与 语音 识别 中 的 语音 识别 模块 起 着 类 似 的 作用 (Deng 和 Yu, 2007) 。 
使 用 语言 模型 将 图 像 中 检测 到 的 属性 转换 为 图 像 字幕 中 的 字幕 假设 列表 ， 在 语音 识别 的 后 期 阶段 具有 
对 应 的 关系 ， 将 声学 特征 和 语音 单元 转换 为 词汇 正确 的 单词 假设 集合 〈 通 过 发 音 模 型 ) ， 然 后 进入 语 
言 合理 的 单词 序列 (通过 语言 模型 ) (Bridle 等 ，1998; Deng, 1998) 。 图 像 字 幕 重新 排序 模块 的 独 
特 之 处 在 于 ， 之 前 的 属性 检测 模块 不 具备 完整 图 像 的 全 局 信息 ， 而 要 为 完整 图 像 生 成 有 意义 的 自然 语 
句 就 需要 这 些 信息 。 相 比 之 下 ， 语 音 识别 不 需要 匹配 输入 和 输出 的 全 局 属性 。 


9.33 其 他 框架 


除了 图 像 字幕 的 两 个 主要 框架 之 外 , 其 他 相关 框架 还 学 习 了 视觉 特征 和 相关 字幕 的 联合 词 问 量 ， 


第 9 章 利用 LSTM 实现 图 像 字幕 自动 生成 | 253 


例如 Wei A (20150 已 经 研究 过 为 图 像 中 的 各 个 区 域 生成 密集 的 图 像 字幕 , 并 日 Pu 等 人 (2016) 

开发 了 用 于 图 像 字 幕 的 变 分 目 动 编码 器 。 此 外 ,， 受 最 近 强 化 学 习 成 功 的 激励 ， 图 像 字 幕 研究 人 员 还 
提出 了 一 套 基于 强化 (Reinforce) 学 习 的 算法 ， 以 直接 优化 特定 奖励 的 字幕 模型 。 例 如 ，Rennie 
等 人 (2017) 提出 了 一 种 Self-Critical 序列 训练 算法 ， 它 使 用 强化 算法 来 优化 像 CIDEr 这 样 的 评估 
指标 , 这 通常 是 不 可 微分 的 , 因此 不 容易 通过 传统 的 基于 梯度 的 方法 进行 优化 ,在 Ren 等 人 (2017) 

的 文献 中 , 在 Actor - Critic 框架 内 , 学 习 策 略 网 络 和 评估 网 络 通 过 优化 视觉 语义 激励 来 生成 字幕 ， 

并 度量 图 像 和 生成 的 字幕 之 间 的 相似 性 。 关 于 图 像 字幕 的 生成 , 研究 人 员 近 期 又 提出 了 基于 生成 对 
抗 网 络 (GAN) 的 文本 生成 模型 。 其 中 ，SeqGAN (Yu 等 ，2017) 将 生成 器 建 模 为 强化 学 习 中 的 
随机 策略 ， 如 文本 等 离散 输出 ，RankGAN (Lin 等 ，2017) 提出 了 一 种 基于 排序 的 鉴别 器 损失 ， 它 
可 以 更 好 地 评估 生成 文本 的 质量 ， 从 而 产生 更 好 的 生成 器 。 


9.4 评估 指标 和 基准 


关于 自动 生成 字幕 的 质量 ， 研 究 人 员 曾 在 有 关上 自 动 评 估 和 人 类 研究 的 文献 中 做 过 评估 和 报告 。 
常用 的 自动 评估 标准 包括 双语 评估 替补 BLEU(Papineni ^5, 20022. METEOR( Denkowski 和 Lavie, 
2014) 、CIDEr (Vedantam ^$, 2015) 以 及 SPICE (Anderson ^5, 2016) . BLEU (Papineni ^5, 
2002) 在 机 器 翻译 中 被 广泛 使 用 ， 并 且 度 量 假 设 和 参考 〈 或 一 组 参考 ) 文献 之 间 共 有 的 N-Gram 分 
数 (最 多 4-Gram) > METEOR (Denkowski 和 Lavie，2014) 度量 的 是 一 元 模型 (Unigram) 的 精 
确 度 和 召回 率 ， 但 是 扩展 了 精确 的 单词 匹配 以 包括 基于 WordNet 同义词 和 词 干 标记 的 类 似 单词 。 
CIDEr (Vedantam ^5, 2015) 还 度量 了 字幕 假设 和 参考 文献 之 间 的 N-Gram 匹配 ， 而 N-Gram 是 通 
过 TF-IDF 进行 加 权 的 。 相 反 ， 在 给 定 参考 文献 的 情况 下 ，SPICE (Anderson 等 ，2016) 可 以 评估 
图 像 字 幕 中 包含 语义 命题 内 容 的 Fl 得 分 ， 因 此 与 人 类 判断 的 相关 性 最 好 。 这 些 上 自动 评估 可 以 有 效 
地 计算 ， 因 此 大 大 加 快 了 图 像 字 幕 算法 的 发 展 。 然 而 ， 众 所 周知 ， 所 有 这 些 自动 指标 只 与 人 类 的 判 
WIXSUBX (Eliott 和 Keller，2014) 。 

截至 到 目前 为 止 , 研 究 人 员 已 经 创建 了 许多 数据 集 , 用 于 图 像 字 幕 的 研究 .Flickr 数据 集 (Young 
等 ，2014) 和 PASCAL 句子 数据 集 (Rashtchian 等 ，2010) 是 为 了 促进 图 像 字 幕 的 研究 而 创建 的 。 
最 近 ， 人 微软 公司 赞助 创建 的 COCO (上 下 文中 的 公共 对 象 ) 数据 集 (Lin 55, 2015) 是 目前 可 供 公 
众 使 用 的 最 大 图 像 字 幕 数 据 集 。 近 年 来 ， 大 规模 数据 集 的 可 用 性 极 大 地 促进 了 图 像 字幕 的 研究 。 在 
2015 年 ， 大 约 15 个 小 组 参加 了 COCO 字幕 挑战 赛 (Cui 等 ，2015) 。 挑 战 中 的 项 目 由 人 类 来 判断 
和 评估 。 在 本 次 比赛 中 ， 所 有 参赛 作品 的 评比 结果 中 被 评比 为 “好 ”或 “等 于 ”人 类 水 平 的 字幕 所 
占 比 为 M1， 通 过 图 灵 测 试 的 字幕 所 占 比 为 M2。 另 外 三 个 度量 被 用 作 结 果 的 诊断 和 解释 : 1-5 级 
字幕 的 M3- 平 均 正 确 性 〈 不 正确 -正确 ) . 1-5 级 字幕 的 M4- 平 均 细 节 量 〈 缺 乏 细 节 - 非 常 详细 ) 以 
及 与 人 类 描述 相似 的 MS- 上 百分比 字幕 。 在 评估 中 , 每 个 任务 都 呈现 出 一 个 图 像 和 两 个 字幕 : 一 个 字 
幕 是 自动 生成 的 ， 另 一 个 是 人 工 字 幕 。 对 于 M1， 需 要 评判 者 选择 出 哪个 字幕 更 好 地 描述 了 图 像 ， 
或 者 在 质量 相同 时 选择 相同 的 选项 。 对 于 M2， 要 求 评 判 者 判断 出 这 两 个 字幕 中 哪个 是 由 人 类 生成 
的 。 如 果 评 判 者 选择 自动 生成 的 字幕 ， 或 者 选择 “无 法 告知 ”选项 ， 就 认为 已 经 通过 了 图 灵 测 试 。 
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从 2015 年 COCO 字幕 挑战 中 的 前 15 个 图 像 字 幕 系统 获得 了 上 述 MI 至 MS 指标 量化 的 结果 ， 
以 及 通过 自动 指标 度量 的 其 他 项 ， 已 在 He 和 Deng (2017) 的 论文 中 进行 了 总 结 和 分 析 。 这 些 系 
统 的 成 功 反 映 了 我 们 在 利用 深度 学 习 方 法 实现 从 感知 到 认 知 这 一 具有 挑战 性 的 任务 上 取得 了 巨大 


9.5 近期 研究 


由 深度 学 习 系 统 根据 岁 像 生成 的 自然 语言 字幕 采用 在 前 面 提供 的 许多 技术 并 提供 了 示例 , 通常 
它们 仅 给 出 图 像 内 容 的 摘 述 。 自 然 语言 风格 在 字幕 生成 过 程 中 各党 被 忽略 。 有 具体 来 说 ， 现 有 的 图 像 
字幕 系统 一 直 在 使 用 语言 生成 模型 ， 该 模型 将 该 风格 与 其 他 语言 生成 的 语言 风格 混合 , 从 而 缺乏 明 
确 控制 语言 风格 的 机 制 。Gan 等 人 〈2017a) 最 近 的 研究 则 在 克服 这 一 缺陷 ， 并 进行 了 相关 阐述 。 

对 图 像 进行 浪漫 或 幽默 的 自然 语言 描述 可 以 极 大 地 丰富 字幕 的 可 表达 性 并 使 其 更 具 吸 引力 。 一 
个 有 吸引 力 的 图 像 字 幕 将 增加 图 像 的 视觉 兴趣 ， 甚 至 可 以 成 为 字幕 系统 的 一 个 显著 特征 。 这 对 于 某 
些 应 用 尤其 有 价值 ， 例 如 ， 增 加 用 户 在 同 聊天 机 器 人 “聊天 ”中 的 参与 度 或 在 社交 媒体 的 照片 字幕 
中 启发 用 户 。 

Gan 等 人 (2017a) 提出 了 StyleNet, 它 能 够 仅 使 用 单 语言 程序 化 语言 语料库 (没有 配对 图 像 》 
和 标准 事实 图 像 /视频 -字幕 对 来 生成 具有 自身 风格 的 有 吸引 力 的 图 像 字幕 。StyleNet 是 基于 卷 积 神 
经 网 络 (CNN) 和 循环 神经 网 络 (RNN) 的 结合 ， 用 于 图 像 字 幕 处 理 。 这 项 工作 受到 多 任务 序列 
对 序列 训练 的 精神 激励 (Luong 等 ，2015) 。 特 别 是 ， 它 引入 了 一 种 新 的 LSTM 模型 ， 该 模型 可 
以 通过 多 任务 训练 从 句子 中 分 离 出 事实 因素 和 风格 因素 。 然 后 , 在 运行 时 可 以 显 式 地 将 风格 因素 合 
并 在 一 起 ， 为 图 像 生 成 不 同 的 风格 的 字幕 。 

其 实 ，StyleNet 在 新 收集 的 Flickr 风格 化 图 像 字 幕 数据 集 上 已 经 进行 了 评估 ， 结 果 表 明 所 提出 
的 StyleNet 显著 优 于 先前 由 自动 评估 和 人 类 评估 所 度量 的 最 新 图 像 字 幕 方法 。 图 9-6 显示 了 一 些 典 
型 的 图 像 字 幕 生成 实例 ， 其 中 观察 到 具有 标准 事实 风格 的 字幕 仅 以 枯燥 的 语言 描述 图 像 中 的 事实 ， 
而 浪漫 和 幽默 风格 的 字幕 不 仅 可 以 描述 图 像 的 内 容 , 还 以 浪漫 或 幽默 的 方式 表达 内 容 。 通过 生成 带 
有 浪漫 (例如 恋爱 、 真 爱 、 享 受 、 约会 等 ) 或 幽默 感觉 的 短语 可 以 找到 一 种 委婉 的 表达 方式 。 此 外 ， 
还 发 现 StyleNet 生成 的 短语 与 图 像 的 视觉 内 容 匹 配 一 致 , 使 得 字幕 在 视觉 上 是 相关 的 并 具有 吸引 力 。 
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" E " : i: " 
F: A boy sits on the swing. L1 xam a F: A black dog stand in the water. 
l p 
R: A boy swings — R: A dog takes a shower in the water boforo dating. 
H: A boy is sitting on a swing ready to fly. = H: A black dog Is running into the water to catch fish. 


F: A man is riding a bike on a dirt road. F: A brown dog and a black dog play in the snow. 


R: A bike rider races along a road, speed to finish the line, R: Two dogs in love are playing together in the snow. 


TU 3 H: A man rides the bike fast to avoid being late for a class. P H: A brown dog and a black dog are fighting for a bone. 


E MEE F: A football player in a red uniform is running with football. F: Two men are sitting on a bench under a tree . 
^ ^ sr R: A football player in red is runningto win the game. R: Two men are waiting for their true love, 
H: A football player in red is challenging the player in a game. H: Two men sit In the city park to catch pokemon go. 


9-6 Hi StyleNet 进行 图 像 生成 字幕 的 6 个 示例 ， 每 个 生成 的 图 像 字 幕 具有 3 种 不 同 的 风格 
9.6 图像 字 幕 的 产业 布局 


在 研究 界 迅速 发 展 的 推动 下 ， 业 界 开 始 部 闭 图 像 字幕 服务 。 在 2016 年 3 月 ， 微 软 公 司 同 公众 
发 布 了 作为 云 API 的 图 像 字 幕 服务 。 为 了 展示 该 功能 的 用 法 ， 它 还 部 署 了 一 个 名 为 CaptionBot 
(http://CaptionBot.a1) 的 Web 应 用 程序 ， 用 于 描述 用 户 上 传 的 任意 图 片 。 最 近 ， 和 人 微软 在 广泛 使 用 
的 Office 产品 中 部 署 了 字幕 生成 服务 , 特别 是 Word 和 PowerPoint 的 应 用 上 , 用 于 自动 生成 备 选 文 
本 ， 以 便于 访问 。Facebook 公司 也 发 布 了 一 个 图 像 字 幕 目 动 生 成 的 工具 ， 提 供 了 照片 中 标识 的 对 
象 和 场景 的 列表 。 同 时 ，Google 公司 为 社区 开放 了 图 像 字 幕 目 动 生成 系统 。 
通过 这 些 在 行业 内 大 规模 的 部 署 和 开源 项 目 ， 实 际 场景 中 的 大 量 图 像 和 用 户 反 馈 正 在 被 收集 ， 
作为 不 断 增 加 的 训练 数据 ， 以 稳定 地 提高 系统 的 性 能 。 这 将 反 过 来 激发 了 用 于 视觉 理解 和 卓然 语言 
生成 的 深度 学 习 方 法 的 新 研究 。 


9.7 详解 图 像 字幕 目 动 生成 任务 
9.7.1 认识 数据 集 


首先 直接 和 间接 地 了 解 我 们 正在 使 用 的 数据 ， 是 下 面 两 个 数据 集 : 


€ The ILSVRC ImageNet dataset ( http-//image-net.org/download ) 
€ The MS-COCO dataset ( http://cocodataset.org/Zdownload ) 


我 们 不 会 直接 使 用 第 一 个 数据 集 , 但 它 对 于 字幕 学 习 至 关 重 要 。 此 数据 集 包含 图 像 及 其 各 自 的 
类 别 标 签 ( 例 如 猫 、 狗 、 汽 车 和 树 等 ) 。 我 们 将 使 用 一 个 已 经 在 这 个 数据 集 上 训练 过 的 CNN， 所 
以 不 必 从 头 开始 下 载 和 训练 这 个 数据 集 。 接 下 来 ， 将 使 用 MS-COCO 数据 集 ， 其 中 包含 图 像 及 其 
各 目的 字幕 。 我 们 将 使 用 CNN 将 图 像 映 射 到 固定 大 小 的 特征 癌 量 ， 然 后 使 用 LSTM 将 此 回 量 映射 
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到 相应 的 字幕 ， 直 接 从 该 数据 集中 学 习 《〈 稍 后 将 详细 讨论 该 过 程 ) 。 
1. ILSVRC ImageNet 数据 集 


ImageNet 是 一 个 图 像 数 据 集 , 包含 大 量 图 像 ( 约 一 百 万 个 ) 及 其 各 自 的 标签 .这 些 图 像 属于 1 000 
个 不 同 的 类 别 。 此 数据 集 非常 具有 表现 力 , 并 且 在 我 们 要 为 其 生成 字幕 的 图 像 中 可 以 找到 几乎 所 有 
的 对 象 。 因 此 ，ImageNet 是 一 个 很 好 的 训练 数据 集 ， 便 于 我 们 获得 生成 字幕 所 需 的 图 像 编码 。 我 
们 将 间接 地 使 用 这 个 数据 集 ， 因 为 我 们 将 使 用 在 该 数据 集 上 训练 好 的 预 训练 CNN。 因 此 ， 我 们 不 
会 下 载 这 个 数据 集 ， 也 不 会 在 此 数据 集 上 训练 CNN。 图 9-7 显示 了 ImageNet 数据 集中 的 一 些 可 用 
类 别 。 


sea snake Shetland sheepdog carton crane 


grey whale 


cellular telephone 


9-7 ImageNet 数据 集中 的 一 些小 样 例 
2. MS-COCO 数据 集 


我 们 继续 讨论 数据 集 MS-COCO (Microsoft - Common Objects in Context) ， 这 里 我 们 将 使 用 
2014 年 的 数据 集 。 如 前 所 述 ， 此 数据 集 由 图 像 及 其 各 自 的 文字 描述 所 组 成 。 数据 集 非常 大 (例如 ， 
训练 数据 集 由 大 约 120 000 个 样本 组 成 ， 数 据 量 超过 15 GB ) ， 这 个 数据 集 每 年 更 新 一 次 ， 然 后 举 
行 竞 赛 以 表彰 实现 最 佳 性 能 的 团队 。 当 目标 是 为 了 实现 最 佳 性 能 时 , 使 用 完整 数据 集 就 显得 非常 有 
意义 。 然 而 ， 在 我 们 的 例子 中 ， 是 需要 一 个 模型 ， 它 可 以 合理 地 学 习 具 有 普遍 性 的 图 像 字幕 生成 过 
程 。 因此， 我 们 将 使 用 较 小 的 数据 集 ( 约 40 000 张 图 像 和 约 200 000 000 个 字幕 ) 来 训练 模型 。 图 
9-8 给 出 了 一 些 可 用 的 样本 。 

为 了 学 习 和 测试 端 到 端 图 像 字幕 自动 生成 模型 ， 我 们 将 使 用 官方 MS-COCO 数据 集 网 站 上 提 
供 的 2014 年 的 验证 数据 集 。 该 数据 集 由 约 41 000 张 图 像 和 约 200 000 个 字幕 组 成 。 我 们 将 使 用 初 
始 的 1000 个 样本 作为 验证 集 ， 其 余 的 作为 训练 集 。 


在 实践 中 ， 我 们 应 该 使 用 单独 的 数据 集 进 行 测试 和 验证 。 但是， 由 于 我 们 使 用 了 有 限 的 
数据 ， 为 了 最 大 化 学 习 效 果 ， 因 此 这 里 考虑 使 用 相同 的 数据 集 进行 测试 和 验证 。 
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pink and green marker, next to another object. 
k 


pair of red scissors on top of a desk. 

close up image of the finger holes on a pair of scissors and sharpie markers. 
lose up of a red pair of scissors and a green sharpie marker. 

very close up view of some scissors and markers. 


A bathroom that has magazine rack and small cabinet. 
Compact bathroom area, tub, toilet, magazine area and sink. 
Small residential bath room decorated in w tones 

A tissue box on top of a toilet in a bathroom. 

an image of a clean full bathroom 


A woman exercising a brown horse in a riding ring. 
A woman is in a barn with a brown h 

A woman training her beautiful brown horse 

A woman with a brown horse in a dirt area of building. 
A woman and a horse in a barn with dirt floor. 


Man in mid air reaching between his legs to reach a frisbee. 
A man is doing tricks with a frisbee 
^ person is jumping with a Frisbee in the air. 
jumping in the air while playing with a frisbee 
A man in mid air attempting to catch a frisbee. 


A grey motorcycle on dirt road next to a building. 

A motorcycle is parked on a dirt road in front of an old farm truck selling produce. 
there is a bike on a dirt road 

Motorcycle sitting on a dirt road in front of a farm house advertising produce. 

A motorcycle that is sitting in the dirt. 


图 9-8 MS-COCO 数据 集中 的 一 些 样 例 
在 图 9-9 中 , 我 们 可 以 看 到 验证 集中 的 一 些 图 像 。 这些 图 像 是 在 验证 集中 精心 挑选 的 一 些 的 示 
例 ， 展 示 了 各 种 不 同 的 对 象 和 场景 。 我们 将 使 用 这 些 图 像 来 检查 结果 ， 因 为 以 可 视 化 方式 检查 验证 
集中 的 1000 个 样本 是 不 可 行 的 。 


图 9-9 ”以 这 些 图 像 来 测试 算法 的 图 像 字幕 自动 生成 能 力 


9.7.2 ”用 于 图 像 字 幕 自动 生成 的 深度 学 习 管 道 


在 这 里 ， 我 们 将 看 到 一 个 高 级 别 的 图 像 字幕 目 动 生成 管道 ， 然 后 逐个 讨论 它 , 直到 得 到 一 个 完 
整 的 模型 。 图 像 字 幕 上 自动 生成 框架 由 三 个 主要 组 件 和 一 个 可 选 组 件 组 成 : 


€ CNN 生成 用 于 图 像 的 编码 向 量 。 
e 词 谈 入 层 学 习 词 向 量 。 
e (TŻ) 可 以 将 给 定 词 向 量 维度 转换 为 任意 维度 的 适 配 层 (后续 将 进行 详细 讨论 ) 。 
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e LSTM 获取 图 像 的 编码 向 量 ， 并 输出 相应 的 字幕 。 


首先 ， 让 我 们 看 一 下 CNN 生成 图 像 的 编码 向 量 。 我 们 可 以 通过 在 大 型 分 类 数据 集 ( 例 如 
ImageNet) 上 训练 CNN 并 使 用 该 知识 生成 图 像 的 压缩 问 量化 表示 来 实现 这 一 点 。 
有 人 可 能 会 问 ， 为 什么 不 将 图 像 输 入 LSTM WE? 让 我 们 回 到 第 8 章 中 提 到 的 一 个 简单 计算 : 
“如 果 输 入 层 增 加 了 500 个 单位 ， 就 会 导致 参数 增加 200 000 个 ”。 
我 们 在 这 里 处 理 的 图 像 大 约 在 150 000-224x224x3 之 间 , 这 应 该 可 以 让 你 意识 到 会 导致 LSTM 
参数 数量 增加 的 程度 。 因 此 ， 对 于 压缩 癌 量 化 表示 的 工作 变 得 至 关 重 要 。LSTM 不 适合 直接 处 理 原 
始 图 像 数据 的 另 一 个 原因 是 ， 与 使 用 CNN 处 理 图 像 数据 相 比 ， 它 显得 过 于 复杂 。 


其 实 ，LSTM 中 也 存在 着 卷 积 LSTM (Convolution LSTM ) 这 样 的 变 体 。 卷 积 LSTM 可 
以 使 用 卷 积 运算 代替 全 连接 图 层 去 处 理 图 像 输 入 。 这 种 网 络 大 量 用 于 时 空间 题 ( 例如 ， 

天 气 数 据 或 视频 预测 )， 其 具有 数据 的 空间 和 时 间 维 度 。 我 们 可 以 从 Jeff Donahue 等 人 的 
论文 《Long-term Recurrent Convolutional Networks for Visual Recognition and Description) 


( Proceedings of the IEEE conference on Computer Vision and Pattern Recognition，2015 ) 中 
查阅 有 关 卷 积 LSTM 的 更 多 信息 。 


虽然 训练 过 程 完 全 不 同 , 但 是 这 个 训练 过 程 的 目标 与 学 习 词 问 量 的 目标 是 相似 的 .对 于 词 问 量 ， 
我 们 硕 望 相似 的 词 具 有 相似 的 向量 〈 高 相似 度 ) ， 而 不 同 的 词 具有 不 同 的 问 量 〈 低 相似 度 ) 。 换 句 
话说 ， 如 果 Jmagex 表 示 针 对 图 像 x 获 得 的 编码 同 量 ， 那 么 以 下 式 子 应 该 成 立 : 


Distance(Imagecat, Imageyoicano) > Distance(Imagecat, IMageaog) 


接 下 来 ， 我 们 将 通过 从 MS-COCO 数据 集 提 供 的 所 有 字幕 中 提取 所 有 单词 来 学 习 被 创建 的 文 
本 语料库 的 词 问 量 。 学 习 词 向 量 有 助 于 我 们 减少 LSTM 输入 的 维度 ， 还 有 助 于 生成 更 有 意义 的 特 
征 作 为 LSTM 的 输入 。 这 是 机 器 学 习 管 道中 的 另 一 个 关键 目标 。 

当 我 们 使 用 LSTM 生成 文本 时 , 使 用 单词 的 One-Hot 编码 表示 或 词 向 量 表示 。 因 此, LSTM 的 
输入 始终 是 固定 大 小 的 。 如 果 输 入 大 小 是 动态 变化 的 ， 我 们 很 难 使 用 标准 LSTM 来 处 理 它 。 其 实 
没有 必要 担心 这 一 点 ， 因 为 我 们 只 处 理 文 本 信息 。 

然而 , 在 这 种 情况 下 , 我 们 在 处 理 图 像 和 文本 时 需要 确保 图 像 的 编码 回 量 和 对 应 于 图 像 字 幕 的 
每 个 词 的 表示 都 具有 相同 的 维度 此 外 , 使 用 词 回 量 可 以 为 所 有 单词 创建 任意 固定 长 度 的 表示 方式 。 
因此 ， 我 们 使 用 词 回 量 来 匹配 图 像 编码 问 量 长 度 。 

最 后 ， 我 们 将 为 每 个 图 像 创建 一 个 数据 序列 ， 其 中 序列 的 第 一 个 元 素 是 图 像 的 癌 量 化 表示 ， 然 
后 是 图 像 字幕 的 词 回 量 。 我 们 将 使 用 这 个 数据 序列 来 训练 LSTM。 

这 种 方法 类 似 于 论文 《Show, Attend and Tell: Neural Image Caption Generation with Visual 
Attention) (Xu 等 ， 第 32 届 机 器 学 习 国 际会 议论 文集 ，2015) 中 发 现 的 方法 ， 相 关 处 理 过 程 如 图 
9-10 所 示 。 
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图 9-10 用 于 生成 图 像 字幕 的 机 器 学 习 管 道 


9.7.3 使 用 CNN 提取 图 像 特征 


下 面 详细 讨论 如 何 使 用 CNN 来 提取 图 像 的 特征 向 量 。 为 了 获得 良好 的 特征 向 量 ， 我 们 首先 需 
要 利用 图 像 及 其 对 应 的 图 像 类 别 训练 CNN 或 使 用 互联 网 上 免费 提供 的 预 训练 好 的 CNN。 如 果 我 们 
从 头 开 始 训练 CNN 将 不 得 不 进行 重复 性 的 工作 ,我 们 这 里 选择 预 训练 好 的 模型 (可 供 免费 下 载 )。 
另外 需要 说 明 的 是 ， 如 果 CNN 需要 能 够 描述 多 个 对 象 ， 那 么 需要 在 对 应 于 各 种 对 象 的 一 组 分 类 上 
进行 训练 。 这 就 是 在 大 型 数据 集 CülImageNeO 上 训练 模型 很 重要 的 原因 所 在 (例如 ， 与 只 有 10 
个 不 同类 别 的 小 型 数据 集 的 训练 相 比 ) 。 如 前 所 述 ，ImageNet 包含 1 000 个 对 象 类 别 。 这 对 我 们 试 
图 解决 的 任务 来 说 已 经 足够 了 。 

不 过 ，ImageNet 包含 约 IMB 的 图 像 。 此 外 ， 由 于 有 1000 个 类 ， 显 然 不 能 使 用 具有 简单 结构 
的 小 型 CNN 例如， 具有 几 层 的 CNN) 来 进行 学 习 。 我 们 需要 更 强大 、 更 深层 次 的 CNN， 但 是 
由 于 CNN 的 复杂 性 和 数据 集 本 身 的 复杂 性 ， 在 GPU 上 训练 这 样 的 神经 网 络 可 能 需要 几 天 (甚至 
JUS» 的 时 间 。 例如, VGG ( 即 一 个 著名 的 CNN, 在 ImageNet 上 给 出 了 非常 好 的 图 像 分 类 准确 性 ) 
可 能 需要 2-3 周 的 时 间 来 进行 训练 。 

因此 ， 我 们 需要 更 巧妙 的 方法 来 解决 这 个 问题 。 幸 运 的 是 ， 像 VGG XXFÉR CNN 可 以 随时 下 
载 , 所 以 我 们 可 以 在 没有 进行 任何 单独 训练 的 情况 下 使 用 它们 , 这 就 是 它 被 称 为 预 训练 模型 的 原因 
所 在 。 使 用 预 训练 模型 可 以 使 我 们 节省 数 周 的 时 间 ， 因 为 我 们 所 需要 的 只 是 学 习 的 权重 值 和 CNN 
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的 实际 结构 ， 以 重建 网 络 并 立即 使 用 它 进 行 推理 工作 。 

本 实例 中 ,我 们 将 使 用 VGG CNN( 可 在 http://www.cs.toronto.edu/~frossard/post/Vgg16/ 处 获得 )。 
VGG 架构 在 2014 年 的 ImageNet 竞赛 中 获得 第 二 名 , H VGG 有 几 种 变 体 : 13 层 深度 网 络 (VGG-13)、 
16 层 深度 网 络 CVGG-16)0 和 19 层 深度 网 络 (VGG-19〉。 我 们 这 里 将 使 用 VGG-16， 其 网 络 架 构 
如 图 9-11 所 示 。 


pooll pool2 pool3 pool4 pool5 
conv conv Conv F| cony cony conv conv 


conv conv conv conv conv conv conv conv n 
1112 21 22 3132 33 34 41 42 43 44 5152 53 54 | fc6 fc7fc8 


ERE 


PS 512 512 
128 256 
Softmax 
lem d Vemm? —  —— e ed) 
ReLu ReLu ReLu ReLu ReLu ReLu 


9-11 VGG-16 网 络 架 构 示 意图 


9.7.4 使 用 VGG-16 加 载 权 重 值 并 进行 推理 


网 站 http://www.cs.toronto.edu/~frossard/post/vgg16/ 提 供 了 权重 值 来 作为 NumPy 数组 的 字典 ， 
HA 16 个 权重 值 和 16 个 偏差 值 对 应 于 16 层 的 VGG-16 模型 ， 它 们 分 别 保存 在 下 面 一 些 字段 中 : 


convl 1 W, convl 1 b, convl 2 W, convl 2 b, conv2 1 W, conv2 1 b.. 


首先 ， 从 网 站 上 下 载 文 件 并 将 其 保存 至 ch9/image caption data 文件 夹 中 。 现 在 我 们 将 讨论 有 具 
体 实 现 过 程 : 从 加 载 下 载 得 到 的 CNN 到 使 用 预 训 练 的 CNN 进行 预测 ,首先 ,创建 必要 的 TensorFlow 
变量 并 用 下 载 的 权重 值 来 加 载 它 们 。 其 次 ， 定 义 一 个 输入 的 读 取 管 道 ， 以 读 取 图 像 来 作为 CNN 的 
输入 以 及 几 个 预 处 理 步骤 。 然 后 定义 CNN 的 推理 操作 以 获得 相关 输入 的 预测 。 接 着 定义 具体 计算 
以 获得 图 像 分 类 ， 并 为 CNN 定义 认为 符合 给 定 输入 的 图 像 的 最 佳 分 类 预测 。 虽 然 最 后 一 个 操作 不 
需要 为 图 像 生 成 字幕 ， 但 是 正确 地 配置 预 训 练 的 CNN 非常 重要 。 


1. 构建 和 更 新 变量 


首先 使 用 以 下 内 容 将 包含 CNN 权重 值 的 NumPy 数组 字典 加 载 到 内 存 中 ( 即 加 载 到 CNN 的 记 
忆 中 ) : 


weight file = os.path.join('image caption data', 'vggl6 weights.npz') 
weights = np.load(weight file) 


接 下 来 , 创建 TensorFlow 变量 并 为 它们 赋予 实际 的 权重 值 。 此 外 , 这 可 能 占用 相当 多 的 内 存 。 
因此 ， 为 了 避免 机 器 崩溃 ， 我 们 将 特别 要 求 TensorFlow 将 其 保存 在 CPU 而 不 是 GPU 上 。 这 里 将 
简 述 用 于 构建 和 加 载 具 有 正确 权重 值 的 TensorFlow 变量 的 代码 。 我 们 将 首先 在 Python 列表 
TF SCOPES 中 定义 所 有 字典 的 键 (表示 CNN 的 不 同 层 ID ) 。 然 后 将 迭代 遍历 每 个 图 层 ID， 同 时 
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使 用 相应 的 权重 值 矩 阵 和 偏差 同 量 作为 初始 化 过 程 ,根据 相应 图 层 了 D 命 名 有 具体 的 TensorFlow 变量 : 


def build vgg variables (npz weights): 


构建 所 需 的 TensorFlow 变量 以 填充 vGG-16 并 用 实际 权重 值 填 充 它 们 


:Param npz weights: loaded weights as a dictionary 
ST 


params = [] 


print("Building VGG Variables (TensorFlow)...") 
with tf.variable scope('CNN'): 


# 和 迭代 每 个 卷 积 和 全 连接 层 ， 并 使 用 变量 作用 域 来 创建 TensorFlow 变量 
for si,scope in enumerate(TF SCOPES): 


with tf.variable scope(scope) as sc: 


weight key, bias key -TF SCOPES[si]-*' W', TF SCOPES[si]-*' pb 


with tf.device('/cpu:0'): 
weights — tf.get variable(TF WEIGHTS STR, 
initializer- npz weights [weight_key]) 
bias = tf.get variable(TF BIAS STR, initializer = npz weights[bias keyl) 
params.extend([weights,bias]) 


return params 


2. 预 处 理 输入 


接 下 来 ， 定 义 一 个 输入 管道 以 便 将 图 像 输入 到 VGG-16 模型 中 。VGG-16 对 输入 图 像 有 以 下 要 
求 ， 以 使 预测 趋 于 正确 : 

e 输入 量 应 为 [224,224,3]。 

@ 输入 应 该 是 零 均 值 (但 不 是 单位 方差 ) 。 


以 下 代码 创建 一 个 管道 , 该 管道 直接 从 一 组 给 定 的 文件 名 中 读 取 , 且 应 用 前 面 的 转换 并 创建 一 
批 此 类 转换 后 的 图 像 。 此 过 程 在 代码 文件 里 由 preprocess inputs with tfqueue 函数 进行 定义 。 
首先 ， 我 们 将 定义 一 个 文件 名 队列 ， 这 里 保存 了 我 们 应 该 读 取 的 文件 名 〈 图 像 的 文件 名 ) : 
# 文件 名 的 FIFO 队列 
+ 创建 FIFO 队列 ， 以 便 reader 可 以 读 取 队列 


filename queue = tf.train.string input producer(filenames, capacity-10, 
shuffle-False) 


其 次 , 这 里 将 定义 一 个 读 取 器 ， 它 将 文件 名 队列 作为 输入 并 输出 到 一 个 缓冲 区 中 ， 而 后 从 该 组 
冲 区 读 取 文 件 名 以 找到 和 读 取 对 应 的 图 像 数 据 : 
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# 读 取 器 (reader) 采用 文件 名 队列 和 read () 逐个 输出 数据 


reader = tf.WholeFileReader() 
reader.read (filename queue,name-'image read op') 


+: image buffer = 


* 读 取 原始 图 像 数 据 并 作为 units 返回 


tf.image.decode jpeg(contents- image buffer,channels-3, 


dec image - 
name-'decode jpg') 


# 将 unit8 数据 转换 为 float32 类 型 
float image = tf.image.convert image dtype(dec image, 
dtype-tf.float32,name- 'float image') 


接 下 来 进行 预 处 理工 作 : 
# 将 图 像 大 小 调整 为 224X224X3 
resized image = tf.image.resize images (float image, [224,224])*255.0 


# 对 于 VGG 模型 ， 图 像 仅 是 零 均 值 的 〈 不 是 标准 化 的 单位 方差 ) 


std image = resized image - tf.reduce mean(resized image,axis-[0,1], 


keepdims-True) 
在 定义 预 处 理 管道 之 后 ， 我 们 将 要 求 TensorFlow 一 次 生成 一 批 预 处 理 的 图 像 : 
image batch = tf.train.batch([std image], batch size - batch size, 
capacity — 10, allow smaller final batch-False,name-'image batch') 


3. 推理 

至 此 ， 我 们 已 经 创建 了 CNN， 且 已 经 定义 了 一 个 管道 用 于 读 取 图 像 ， 通 过 读 取保 存在 磁盘 上 
的 图 像 文件 来 创建 批 处 理 。 现 在 我 们 想 用 从 管道 读 取 的 图 像 来 推 新 CNN。 推 理 是 指 传递 输入 《图 
像 ) 并 获得 预测 (属于 某 类 图 像 的 概率 ) 作为 输出 。 为 此 ， 我 们 将 从 第 一 层 开 始 并 友人 代 到 softmax 
层 。 此 过 程 在 代码 文件 里 由 inference. enn 函数 来 定义 。 

在 每 一 层 ， 我 们 将 获得 权重 值 和 偏差 ， 代 码 如 下 : 


def inference cnn(tf inputs, device): 
with tf.variable scope('CNN'): 
for si, scope in enumerate(TF SCOPES): 


with tf.variable scope(scope,reuse-True) as sc: 
weight, bias = tf.get variable(TF WEIGHTS STR), 


tf.get variable(TF BIAS STR) 


然后 对 于 第 一 个 卷 积 层 进行 计算 并 输出 : 
h = tf.nn.relu(tf.nn.conv2d(tf inputs,weight,strides-[1,1,1,1], 
padding-'SAME')-bias) 

对 于 其 余 的 卷 积 层 进行 计 算 并 输出， 其 中 的 输入 是 前 一 层 的 输出 : 

h = tf.nn.relu(tf.nn.conv2d(h, weight, strides-[1, 1, 1, 1],padding- 'SAME') 


+ bias) 
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对 于 池 化 层 ， 计 算 如 下 : 

h = tf.nn.max pool(h,[1,2,2,1],[1,2,2,1],padding-'SAME!') 

然后 ， 对 于 紧 跟 在 最 后 一 个 卷 积 层 / 池 化 层 之 后 找到 的 第 一 个 完全 连接 的 层 ， 我 们 将 给 出 如 下 
定义 的 输出 。 我 们 需要 将 来 自 [batch size，height，width，channels] 的 最 后 一 个 卷 积 层 / 池 化 层 的 输 
入 重 塑 为 [batch size, height * width * channels] 大 小 ， 因 为 接 下 来 就 是 一 个 完全 连接 层 ; 


h shape - h.get shape().as list() 
h = tf.reshape(h,[h shape[0], h shape[1] * h shape[2] * h shape[31]1) 
h = tf.nn.relu(tf.matmul(h, weight) + bias) 


对 于 除 最 后 一 层 之 外 的 下 一 组 完全 连接 层 ， 我 们 得 到 如 下 输出 : 

h = tf.nn.relu(tf.matmul(h, weight) + bias) 

最 后 ， 对 于 最 后 一 个 完全 连接 层 ， 我 们 不 进行 任何 类 型 的 激活 操作 。 这 将 是 我 们 提供 给 LSTM 
的 图 像 特征 表示 ， 它 是 一 个 1000 维 的 向 量 : 

out = tf.matmul(h,weight) + bias 

4 提取 图 像 的 向 量化 表示 

我 们 从 CNN 中 提取 的 最 重要 的 信息 是 图 像 的 特征 表示 。 对 于 图 像 的 特征 表示 ， 我 们 将 在 应 用 
softmax 预测 之 前 获得 最 后 一 层 的 网 络 输出 。 因 此 ， 对 应 于 单个 图 像 的 癌 量 长 度 为 1 000: 

tf train logit prediction = inference cnn(train image batch, device) 

tf test logit prediction - inference cnn(test image batch, device) 

5. 使 用 VGG-16 预测 图 像 分 类 的 概率 

接 下 来 ， 我 们 将 定义 获取 图 像 特征 表示 所 需 的 操作 以 及 实际 的 softmax 预测 ， 以 确保 我 们 的 模 
型 在 实际 应 用 中 的 正确 性 。 我 们 将 为 训练 数据 和 测试 数据 定义 这 些 相关 操作 : 


tf train softmax prediction = tf.nn.softmax(tf train logit prediction) 


tf test softmax prediction = tf.nn.softmax(tf test logit prediction) 
现在 运行 这 些 操作 ， 看 看 它们 是 否 正 第 工作 ， 如 图 9-12 所 示 。 


现在 来 看 ， 我 们 的 CNN 似乎 知道 它 在 做 什么 。 当 然 ， 也 存在 错误 分 类 的 样本 〈 例 如 ， 长 颈 鹿 
被 识别 为 美洲 驼 ) ， 但 大 多 数 情 况 下 是 正确 的 。 


在 运行 前 面 已 定义 的 操作 以 获取 特征 向 量 和 预测 时 , 请 注意 batch size 变量 。 增 加 此 值 将 


使 代码 快速 运行 。 但 是 ， 如 果 没 有 足够 大 的 内 存 (大 于 8 GB )， 就 可 能 导致 系统 谣 满 。 
如 果 你 没有 高 端的 计算 机 ， 建 议 将 此 值 保持 在 10 以 下 。 
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African elephant warplane cellular telephone seashore fire engine 
(Confidence: 0.60) (Confidence: 0.61) (Confidence: 0.40) (Confidence: 0.49) (Confidence: 0.29) 
— a ` > E 


racket pizza dock llama bookshop 
(Confidence: 0.98) 


(Confidence: 0.31) 


9-12. 利用 VGG 对 测试 图 像 进 行 分 类 预测 


9.7.5 学 习 词 同 量 


本 小 节 讨论 如 何 为 图 像 字 幕 数据 集中 的 单词 执行 学 习 词 癌 量 的 操作 。 首先 , 我 们 对 字幕 进行 预 
处 理 : 


def preprocess caption (capt): 
capt = capt.replace('-',' ') 
capt = capt.replace(',','') 
capt = capt.replace('.','') 
capt = capt.replace('"','') 


capt = capt.replace('!','') 


capt = capt.replace(':','') 
capt = capt.replace('/','") 
capt = capt.replace('?','!') 
capt = capt.replace(';','') 
capt = capt.replace('WV' ',"' ') 
capt = capt.replace('Mn',' ') 


return capt.lower() 
例如 ， 请 考虑 以 下 句子: 
A living room and dining room have two tables, couches, and multiple chairs. 
这 将 转换 为 以 下 内 容 : 
a living room and dining room have two tables couches and multiple chairs 


然后 使 用 连续 词 袋 (CBOW ) 模型 来 学 习 词 回 量 ， 就 像 我 们 在 第 4 章 词 嵌 入 学 习 词 回 量 中 所 做 
的 那样 。 在 学 习 词 癌 量 时 , 我 们 需要 说 记 一 点 : 词 回 量 的 维度 应 该 与 为 图 像 获 得 的 特征 表示 的 维度 
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相 匹 配 ， 因 为 标准 LSTM 无 法 处 理 动态 大 小 的 输入 。 

如 果 我 们 要 使 用 预 训 练 的 词 癌 量 , 很 可 能 词 回 量 的 维度 与 图 像 特 征 表示 维度 不 同 。 在 这 种 情况 
下 ， 我 们 可 以 使 用 适应 层 〈 类 似 于 神经 网 络 的 一 层 ) 将 词 癌 量 维度 与 图 像 特征 表示 维度 相 匹 配 ， 稍 
后 会 具体 展开 说 明 。 

现在 让 我 们 看 一 下 运行 100 000 步 后 学 习 的 一 些 词 向 量 : 


Nearest to gloves: cage, slammed, sidewaolk, 
Nearest to dishwasher: clinging, island, uncut, 
Nearest to rowboat: gushes, peeks, 210, 

Nearest to attacted: cambodian, protest, stack, 
Nearest to eroded: bunkbeds, stood, countryside, 
Nearest to flyinf: ninety, ij, arew, 

Nearest to redorange: railhouse, drunks, poster, 
Nearest to becomes: legos, gorge, commidents, 
Nearest to bow: jordan, longer, man's, 

Nearest to suface: artichokes, cookouts, plane's, 
Nearest to dingy: stars, pillow, stock, 

Nearest to bonzai: llth, shoe's, incldues, 
Nearest to army: american, snapple, connected, 
Nearest to mixed: cooked, raw, oxes, 

Nearest to sleezy: lamas, hiragishi, doubles, 


Nearest to grasshopper: zoo, fenced, sewed, 


9.7.6 为 LSTM 模型 准备 字幕 数据 


现在 , 在 将 词 向 量 与 图 像 特征 向 量 一 起 提供 给 训练 模型 之 前 , 我 们 需要 对 图 像 字幕 数据 执行 更 
多 的 预 处 理 步骤 。 

在 预 处 理 之 前 ， 让 我 们 看 一 些 关 于 图 像 字 幕 的 基本 统计 数据 。 每 个 图 像 字 幕 平 均 有 10 个 左右 
的 单词 ， 标 准 差 大 约 为 2 个 单词 。 这 些 信 息 对 于 我 们 截断 不 必要 的 长 字幕 非常 重要 。 

首先 ， 按 照 前 面 的 统计 数据 ， 设 置 允许 的 最 大 字幕 长 度 为 12。 

接 下 来 ， 介 绍 两 个 新 的 单词 标签 一 一 SOS 和 EOS。SOS 表示 句子 的 开头 ， 而 EOS 表示 句子 的 
结尾 。 这 些 有 助 于 LSTM 轻松 识别 句子 的 开头 和 结尾 。 

接 下 来 ， 我 们 将 EOS 标签 添加 到 长 度 小 于 12 的 字幕 ， 使 其 长 度 达到 12。 

因此 ， 请 考虑 以 下 字幕 : 


a man standing on a tennis court holding a racquet 


加 入 SOS fI EOS 后， 上面 的 句子 将 显示 如 下 : 


SOS a man standing on a tennis court holding a racquet EOS 


考虑 下 面 这 个 字幕 : 
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a cat sitting on a desk 

它 会 变 成 以 下 内 容 : 

SOS a cat sitting on a desk EOS EOS EOS EOS EOS 
但 是 ， 考 虑 以 下 字幕 : 


a well lit and well decorated living room shows a glimpse of a glass front door 


through the corridor 
将 变 成 以 下 内 容 : 
SOS a well lit and well decorated living room shows a EOS 


注意 ， 即 使 在 被 截断 之 后 ， 图 像 的 上 下 文大 部 分 仍然 被 保留 。 
将 所 有 字幕 设置 为 相同 的 长 度 非 常 重 要 , 这 样 我 们 就 可 以 处 理 一 批 图 像 和 字幕 ， 而 不 是 逐个 处 
理 它 们 。 


9.7.7 生成 LSTM 的 数据 


在 这 里 ， 我 们 将 定义 如 何 提取 一 批 数 据 来 训练 LSTM。 每 当 我 们 处 理 一 批 新 数据 时 ， 第 一 个 输 
入 应 该 是 图 像 特征 回 量 ， 而 标签 应 该 是 SOS。 我 们 将 定义 一 批 数据 ， 其 中 ， 如 果 fast sample 布尔 
值 为 Tme， 就 从 图 像 特征 癌 量 中 提取 输入 ; 如 果 first sample 为 False， 就 从 词 问 量 中 提取 输入 。 此 
外 ， 在 生成 一 批 数据 之 后 ,我 们 将 移动 一 个 指针 ， 因 此 下 次 生成 一 批 数据 时 ， 我 们 将 获得 序列 中 的 
下 一 项 。 这 样 ， 我 们 可 以 为 LSTM 输入 一 系列 数据 ， 其 中 第 一 批 序列 数据 是 图 像 特 征 同 量 ， 然 后 
是 与 这 批 图 像 对 应 字幕 的 词 回 量 。 


# 填充 每 个 批 次 索引 
for b in range([self. batch size): 
cap id = cap ids[b] + 目前 字幕 idq 
# 目前 图 像 特征 向 量 
cap image vec-self. image data[self. fname caption tuples[cap id] [0]] 
# 目前 图 像 字幕 
cap text = self. fname caption tuples[cap id][1] 
# 如 果 指 针 超 过 了 字幕 的 长 度 ， 请 重 置 
if self. cursor [b]+1>=self. cap length: 


self. cursor[b] = 0 


* 如 果 我 们 正在 处 理 一 组 新 的 capID 
# 第 一 个 样本 应 该 是 图 像 特征 向 量 
if first sample: 
batch data[b] = cap image vec 


batch labels[b] = np.zeros((vocabulary size),dtype-np.float32) 
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batch labels[b,cap text[0]] = 1.0 


# 如 果 我 们 从 已 处 理 的 批 次 中 继续 生成 当前 单词 作为 输入 ， 将 下 一 个 单词 作为 输出 


else: 
batch data[b] = self. word embeddings [cap text[self. cursor[bl]],:] 
batch labels[b] = np.zeros((vocabulary size),dtype-np.float32) 
batch labels[b,cap text[self. cursor[b]*1]] = 1.0 
# Increment the cursor 
self. cursor[b] = (self. cursor[b]*1)$self. cap length 


对 于 batch size = 1 和 num unrollings =5， 我 们 可 视 化 数据 生成 的 过 程 ， 如 图 9-13 所 示 。 要 获 
得 更 大 的 批 处 理 大 小 ， 可 以 并 行 执 行 此 类 序列 的 batch_size 数 。 


SOS A dog sitting on grass EOS 


sanos 
ERIT EIITEECTTUN TE E773 ER AR e a 
ne-Ho Ez 


m | 
展开 第 1 步 ”1! 0.001 0.01 0.002.. 0.013 ı[ oHEcsos) | 


is first sample=True 


is first sample=Flase 


图 9-13 数据 生成 的 可 视 化 过 程 


9.7.8 定义 LSTM 


现在 我 们 已 经 定义 了 数据 生成 器 来 输出 一 批 数据 , 用 一 批 图 像 特征 回 量 进行 调整 ,并 逐 字 逐 句 
显示 各 个 图 像 的 字幕 ， 下 面 我 们 将 定义 LSTM 细胞 。LSTM 的 定义 和 训练 程序 与 我 们 在 第 8 章 中 


所 观察 到 的 类 似 。 
首先 定义 LSTM 细胞 的 参数 : 权重 值 、 偏 差 、 输 入 门 、 遗 忘 门 、 输 出 门 以 及 计算 候选 项 。 


# Input gate (i t) - 写 入 细胞 状态 的 记忆 量 
# 将 当前 输入 连接 到 输入 门 


ix = tf.Variable(tf.truncated normal([embedding size, num nodes], 


stddev-0.01)) 
# 将 先前 的 隐藏 状态 连接 到 输入 门 
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im — tf.Variable(tf.truncated normal([num nodes, num nodes], stddev-0.01)) 

# 输入 门 的 偏差 

ib = tf.Variable(tf.random uniform([1, num nodes],0.0, 0.01)) 

ERDI] 〈E € - 从 细胞 状态 丢掉 多 少 记忆 

# 将 当前 输入 连接 到 遗 态 门 

fx = tf.Variable(tf.truncated normal([embedding size, num nodes], 
stddev-0.01)) 

TEE BU IE ESGBCDA 6 XE Pc 8X3 s L1] 

fm — tf.Variable(tf.truncated normal([num nodes, num nodes],stddev-0.01)) 

# 遗 筷 门 的 偏差 

fb = tf.Variable(tf.random uniform([1, num nodes],0.0, 0.01)) 

# 候 选项 (c- t) - 用 于 计算 当前 的 细胞 状态 

# 将 当前 输入 连接 到 候选 项 

cx — tf.Variable(tf.truncated normal([embedding size, num nodes], 

stddev-0.01)) 

# 将 之 前 的 隐藏 状态 连接 到 候选 项 

cm — tf.Variable(tf.truncated normal([num nodes, num nodes],stddev-0.01)) 

# 候选 项 的 偏差 

cb = tf.Variable(tf.random uniform([1, num nodes],0.0,0.01)) 

# 输出 门 - 有 多 少 输出 记忆 来 自 细 胞 状态 

# 连接 当前 输入 到 输出 门 

ox = tf.Variable(tf.truncated normal([embedding size, 
num nodes],stddev-0.01)) 


# 连 接 之 前 的 隐藏 状态 到 输出 门 


om — tf.Variable(tf.truncated normal([num nodes, num nodes], stddev-0.01)) 
# 输出 门 的 偏差 


ob = tf.Variable(tf.random uniform([1, num nodes],0.0,0.01)) 


下 面 定 义 softmax 权重 值 和 偏差 : 
# softmax 分 类 器 的 权重 值 和 偏差 


w — tf.Variable(tf.truncated normal([num nodes, 
vocabulary size],stddev-0.01)) 


b = tf.Variable(tf.random uniform([vocabulary size],0.0,0.01)) 


我 们 现在 定义 状态 和 输出 变量 ， 以 获取 训练 和 验证 数据 的 LSTM 的 状态 和 输出 : 


# 定义 并 保存 展开 后 状态 的 各 种 变量 
# 隐藏 状态 


saved output = tf.Variable(tf.zeros([batch size, num nodes]), trainable=False, 
name-'test cell') 

# 细 胞 状态 

saved state = tf.Variable(tf.zeros([batch size, num nodes]), trainable-False, 


name-'train cell') 
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# 测 试 数据 的 隐藏 状态 和 细胞 状态 变量 

saved test output = tf.Variable(tf.zeros([batch size, num nodes]), 
trainable-False, name-'test hidden') 

saved test state — tf.Variable(tf.zeros([batch size, num nodes]), 


trainable-False, name-'test cell') 


接 下 来 我 们 将 定义 LSTM 细胞 计算 : 


def istm cell(i, o, state): 
input gate = tf.sigmoid(tf.matmul(i, ix) + tf.matmul(o, im) +ib) 
forget gate = tf.sigmoid(tf.matmul(i, fx) + tf.matmul(o, fm) +fb) 
update = tf.matmul(i, cx) + tf.matmul(o, cm) + cb 
state = forget gate * state + input gate * tf.tanh(update) 
output gate = tf.sigmoid(tf.matmul(i, ox) + tf.matmul(o, om) +ob) 
return output gate * tf.tanh(state), state 


然后 ， 将 迭代 计算 每 个 训练 步 中 num unrollings 的 LSTM 细胞 的 状态 和 输出 : 
# 这 两 个 Python 变量 在 展开 的 每 个 步 中 欠 代 更 新 


output = saved output 

state — saved state 

# 对 于 展开 的 所 有 步 又， 循环 计算 隐藏 状态 〈 输 出 ) 和 细胞 状态 〈 状 态 ) 
for i in train inputs: 

output, state = lstm cell(i, output, state) 

# 添加 每 个 计算 的 输出 值 


outputs.append (output) 


# 计 算得 分 数值 
logits = tf.matmul(tf.concat(axis-0, values-outputs), w) + b 
# 预测 


train prediction = tf.nn.softmax(logits) 


然后 ， 将 LSTM 的 输出 和 状态 保存 到 我 们 之 前 定义 的 变量 ， 随 后 将 通过 对 展开 的 数 轴 求 和 并 
取 批 次 轴 上 的 平均 值 来 计算 损失 : 


# 展开 情况 下 的 保存 状态 
with tf.control dependencies([saved output.assign(output), 
saved state.assign(state)]): 
# 定义 损失 时 ， 我 们 需要 在 所 有 时 间 步 长 之 间 求 和 ， 但 是 在 批 次 轴 上 是 求 平 均值 
loss = 0 
split logits = tf.split(logits,num or size splits-num unrollings) 
for lgt,lbl in zip(split logits, train labels): 
loss += tf.reduce mean(tf.nn.softmax cross entropy with logits v2 


(logits-lgt,labels-lbl)) 


最 后 ， 我 们 将 定义 一 个 优化 器 ， 以 针对 损失 优化 LSTM 和 softmax 层 的 权重 值 : 
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optimizer = tf.train.AdamOptimizer(learning rate) 
gradients, v = zip(*optimizer.compute gradients (loss)) 
gradients, = tf.clip by global norm(gradients, 5.0) 


optimizer = optimizer.apply gradients(zip(gradients, v)) 


生成 图 像 特征 向 量 、 准 备 好 提供 给 LSTM 的 数据 、 定 义 给 出 LSTM 所 需 的 相关 计算 ， 在 完成 
这 些 工 作 之 后 ， 接 下 来 我 们 对 验证 数据 集 生 成 的 字幕 的 评估 指标 进行 讨论 。 


9.7.9 定量 评估 结果 


有 许多 不 同 的 技术 可 用 于 评估 生成 字幕 的 质量 和 相关 性 。 我 们 将 简要 讨论 4 个 可 用 于 评估 字幕 
的 指标 : BLEU, ROGUE, METEOR 和 CIDEr。 这 些 指标 都 有 一 个 关键 目标 ， 即 评估 生成 文本 的 
充分 性 (生成 文本 的 含义 ) 和 流畅 性 (文本 的 语法 正确 性 ) 。 为 了 得 到 评估 的 结果 ， 我 们 将 使 用 候 
选 句 子 和 参考 句子 ， 其 中 候选 句子 是 由 我 们 的 算法 预测 的 句子 /短语 ， 而 参考 句子 是 我 们 想 要 与 之 
比较 的 真实 句子 /短语 。 

1. BLEU 


双语 评估 研究 (BLEU) 是 由 Papineni 等 人 在 其 论文 《BLEU: 4 Method for Automatic Evaluation 
of Machine Translation》( 计 算 语言 学 协会 (ACL ) 第 40 届 年 会 论文 集 , 费城 ,2002 年 7 月 : 311-318) 
中 提出 的 。 它 以 独立 于 位 置 的 方式 度量 参考 和 候选 短语 之 间 的 n-gram 相似 性 。 这 意味 着 来 和 目 候选 
项 的 n-gram 存在 于 参考 句子 中 的 任何 地 方 ， 并 且 被 认为 是 匹配 的 。BLEU 在 精度 方面 计算 n-gram 
相似 性 。BLEU 有 多 种 变 体 (BLEU-1、BLEU-2、BLEU-3 等 ) ， 表 示 n-gram "P n 的 值 。 


2. (Yn-gramccandidate) Count ji (n — gram) 
2 (Vn—gramccandidate) Count (n — 4 ram) 


XE, Count (n-gram) 是 候选 句子 中 n-gram 的 总 出 现 次 数 。Counterip (n-gram) 是 计算 n-gram 


的 Count (n-gram) FKA KARBY o n-gram 的 最 大 值 为 参考 语句 中 该 n-gram 的 出 现 次 数 。 
例如 ， 考 虑 以 下 两 句 话 : 


BLEU(candidate, ref) = 


Candidate: the the the the the the the 
Reference: the cat sat on the mat 
Count ("the") = 7 

Count ("the") = 7 


Countcaip( the”) = 2 
注意 ,9mecendidate) Coveretpw go 是 一 种 精确 的 表示 形式 。 实 际 上 , 它 被 称 为 修正 n-gram 
Y(vn-gramecandidate) Count(n-gram) 
精度 。 当 存在 多 个 参考 项 时 ，BLEU 被 认为 是 最 大 值 : 
BLEU = max(BLEU(candidate, ref;)) 


然而 ， 对 于 较 小 的 候选 短语 而 言 ， 修 正 的 n-gram 精度 趋 癌 于 更 高 ， 因 为 该 实体 会 除 以 候选 短 
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语 中 的 n-gram 的 数量 ， 这 意味 着 该 度量 将 使 模型 偏向 于 产生 更 短 的 短语 。 为 了 避免 这 种 情况 ， 和 您 
W BP 被 添加 到 前 一 个 项 中 ,该 项 也 您 罚 短 的 候选 短语 ,当然 ,BLEU 存在 一 些 局 限 性 ,例如 BLEU 
在 计算 分 数 时 忽略 同义词 而 不 考虑 召回 , 这 也 是 评估 准确 性 的 重要 指标 。 此 外 , 对 于 某 些 语言 来 说 ， 
BLEU 似乎 是 一 个 糟糕 的 选择 。 然 而 ， 这 是 一 个 简单 的 度量 ， 有 关 实 验 已 经 表明 ， 在 大 多 数 情 况 下 
BLEU 与 人 类 判断 有 很 好 的 相关 性 。 


2. ROUGE 


由 林 泡 文 在 其 论文 《4 Package for Automatic Evaluation of Summaries) | (Proceedings of the 
Workshop on Text Summarization Branches Out, 2004) 中 提出 的 ROUGE (Recall-Oriented Understudy 
for Gisting Evaluations) 可 以 被 认为 是 BLEU 的 变 体 ， 使 用 召回 指标 作为 基本 性 能 指标 。 ROGUE 
指标 如 下 : 

Countqatch 


ROUGE — N = 一 一 一 一 
Countref 


这 里 ，Coumtmatch 是 参考 集合 中 存在 的 与 候选 项 一 致 的 n-gram 数 ，Cowmtrer 是 参考 集合 中 存 
在 的 n-gram 总 数 。 硅 存在 多 个 参考 项 ， 则 ROUGE-N 计算 如 下 : 


ROUGE — N = max(ROUGE — N(ref;,candidate)) 


这 里 ，refi 是 可 用 参考 池 中 的 某 个 参考 项 。ROGUE 有 许多 变 体 ， 它 们 对 标准 ROGUE 度量 进 
行 了 各 种 改进 。ROGUE-L 是 基于 在 候选 语句 和 参考 语句 对 之 间 找 到 的 最 长 公共 子 序列 来 计算 分 数 
Hj. 注意， 在 这 种 情况 下 ， 最 长 公共 子 序列 不 需要 是 连续 的 。 接 下 来 ， ROGUE-W 是 基于 最 长 公共 
子 序列 来 计算 得 分 ， 该 子 序 列 被 子 序 列 中 存在 的 片段 数量 所 惩罚 。ROGUE 也 有 局 限 性 ， 例 如 不 考 
虑 分 数 的 计算 精度 。 

3. METEOR 


METEOR (Metric for Evaluation of Translation with Explicit Ordering) 是 由 Michael Denkowski 

和 Alon Lavie 在 《Meteor Universal: Language Specific Translation Evaluation for Any Target Language) 
(Proceedings of the Ninth Workshop on Statistical Machine Translation, 2014: 376-3800 中 提出 的 ， 

是 一 种 更 高 级 的 关于 执行 候选 句子 和 参考 句子 之 间 对 齐 方 面 的 评估 度量 。METEOR 与 BLEU 和 
ROUGE 的 不 同 之 处 在 于 METEOR 考虑 了 单词 的 位 置 。 在 计算 候选 句子 和 参考 句子 之 间 的 相似 性 
时 ， 以 下 情况 将 被 视 为 匹配 。 

€ Exact 候选 项 的 单词 与 参考 句子 中 的 单词 完全 匹配 . 

@ Stem: 词 干 与 参考 句子 中 的 单词 匹配 . 

€ Synonym: 候选 句子 中 的 单词 是 参考 句子 中 单词 的 同义词 。 

为 了 计算 METEOR 得 分 , 参考 句子 和 候选 句子 之 间 的 匹配 可 以 在 图 9-15 的 帮助 下 给 出 ,如 图 
9-14 所 示 。 然 后 ， 基 于 候选 句子 和 参考 句子 中 存在 的 匹配 数 来 计算 精度 P) 和 召回 率 (R) 。 最 
后 ， 计 算 METEOR 得 分 : 
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po LL PR 
mec" ^ aP +(1— a)R 


这 里 ，a、B 和 Y 是 可 调 参数 ， 并 且 frag EME ILA, MEMA UU RO rn BUE UNE BR ES E 
选 句 子 以 及 紧密 遵循 参考 句子 的 单词 顺序 。 通 过 查看 最 终 unigram 映射 中 的 交叉 数量 来 计算 frag, 
如 图 9-14 所 示 。 


(1—y x frag?) 


the cat sat on the mat the cat sat on the mat 


on the mat sat the cat on the mat sat the cat 
图 9-14 两 个 字符 串 多 种 可 能 性 下 的 对 齐 方式 
在 图 9-15 中 ， 我 们 可 以 看 到 候选 句子 和 参考 句子 之 间 的 匹配 情况 。 例 如 ， 纯 黑色 圆圈 表示 完 
全 匹配 ， 虚 线 空心 圆圈 表示 完全 不 匹配 ， 浅 色 虚 线 圆圈 表示 市 有 干扰 的 匹配 。 


Bob decided to flee when he observed Tom as Bob owed money 


iaaa C D D D D O D O E E A 


Candidate 
Sentence 
o 
c 
u 
[t] 
d 
[e] 


exi | Le 


9-15 METEOR 单词 匹配 表 
METEOR 在 计算 上 更 复杂 ， 但 经 常 被 发 现 与 BLEU 相 比 ， 它 与 人 类 判断 的 相关 性 更 高 ， 这 表 
Hj METEOR 是 比 BLEU 更 好 的 评估 指标 。 
4. CIDEr 
Jé H1 Ramakrishna Vedantam 等 人 在 论文 《CIDEr: Consensus-based Image Description Evaluation) 
(IEEE Conference on Computer Vision and Pattern Recognition; CVPR, 2015) 中 提出 的 ， 是 评估 候 
选 句 子 对 给 定 参 考 语句 集 之 间 一 致 性 的 另 一 种 度量 。CIDEr 用 于 衡量 候选 句子 的 语法 、 显 著 性 和 准 


确 性 (精确 度 和 召回 率 〉 的 情况 。 
首先 ， CIDEr 通过 TF-IDF 方法 对 候选 句子 和 参考 句子 中 发 现 的 每 个 n-gram 进行 加 权 ， 以 使 更 


第 9 章 利用 LSTM 实现 图 像 字幕 自动 生成 | 273 


常见 的 n-gram〔 例 如， 以 单词 为 例 ， 诸 如 a 和 the 之 类 ) 具有 较 低 的 权重 值 ， 而 少见 的 单词 会 有 更 
高 的 权重 值 。 最 后 ,关于 CIDEr 的 计算 ， 则 是 在 候选 句子 与 参考 句子 中 以 TF-IDF 方法 加 权 n-gram 
形成 的 回 量 ， 再 计算 这 两 个 向 量 之 间 的 余弦 相似 度 : 

1 X;TF — IDF,(cand).TF — IDF,(ref;) 


下 
( P = mir — IDE (cand)UWITF — IDR,(ref,)l 


这 里 ，cand 是 候选 句子 ，ref 是 参考 句子 的 集合 ，re 太 是 ref 的 第 个 句子 ，m 是 给 定 候选 项 的 
参考 句子 的 数量 。 最 重要 的 一 点 是 ，TF 一 1DE,(cand) 是 候选 句子 中 的 所 有 n-gram 计算 得 到 的 
TF-IDF 值 ， 并 形成 向 量 。TF — IDR(refi) 和 参考 语句 re 所 是 同一 个 向 量 。||TF — IDF(. 省 表示 向量 
的 大 小 。 

总 的 来 说 , 我 们 需要 知道 的 是 , 截至 到 目前 为 止 , 在 上 自然 语言 处 理 的 所 有 不 同 任务 中 没有 发 现 
最 佳 模型 , 没有 明确 的 局 家 能 够 在 目 然 语言 处 理 中 面 对 所 有 不 同 的 任务 中 都 表现 良好。 这 些 评估 指 
标明 显 依赖 于 具体 工作 任务 本 身 ， 所 以 应 该 根据 任务 的 具体 情况 做 合理 的 选择 。 

5.BLEU-4 随时 间 变 动 的 情况 

在 图 9-16 中 ， 我 们 给 出 了 模型 实验 的 BLEU-4 值 随时 间 的 演变 情况 。 我 们 可 以 看 到 分 值 随 着 
时 间 的 推移 而 上 升 并 趋 近 0.3. 注意 ，MS-COCO 数据 集 的 当前 技术 水 平 约 为 0.369 (Bottom-Up and 
Top-Down Attention for Image Captioning and Visual Question Answering, Anderson and others, 2017) , 
这 是 通过 更 复杂 的 模型 以 及 采用 更 高 级 的 正则 化 获得 的 。 此 外 ，MS-COCO 的 实际 完整 训练 集 大 小 
几乎 是 目前 所 使 用 的 训练 集 的 三 倍 。 因此 , BLEU-4 得 分 为 0.3 且 训 练 数据 有 限 , 在 使 用 单个 LSTM 
细胞 且 没 有 进行 特殊 的 正则 化 处 理 ， 这 已 经 是 一 个 非常 好 的 结果 了 。 


BLEU-4 Score Over Time 


BLEU-4 Score 


0.05 


0 2500 5000 7500 10000 12500 15000 17500 20000 


Iterations 


9-16 BLEU-4 用 于 图 像 字 幕 自动 生成 示例 随 着 时 间 的 演变 情况 


9.7.10 ”为 测试 图 像 集 生成 字幕 


现在 让 我 们 了 解 一 下 模型 为 测试 图 像 生 成 了 哪些 字幕 。 
经 过 100 步 后 ， 模 型 学 到 的 唯一 内 容 就 是 字幕 以 SOS 标签 开头 ， 并 且 有 一 些 单词 后 面 跟着 一 
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HE EOS 标签 ， 如 图 9-17 所 示 。 


SOS a a a EOS a EOS a EOS a EOS a EOS a EOS " = SOSaaaEOSaEOS a EOS a EOS a EOS a EOS 


SOS a a a EOS a EOS a EOS a EOS a EOS a EOS Am SOS a aa EOS a EOS a EOS a EOS a EOS a EOS 


SO5 a a a EOS a EOS a EOS a EOS a EOS a EOS 505 a a a EOS a EOS a EOS a EOS a EOS a EOS 


SOS a a à EOS a EOS a EOS a EOS a EOS a EOS y p SOS a a a EOS a EOS a EOS a EOS a EOS a EOS 


SOS a a a EOS a EOS a EOS a EOS a EOS a EOS = A sOs a a a EOS a EOS a EOS a EOS a EOS a EOS 


9-17 100 步 之 后 图 像 字 幕 自动 生成 的 示例 


在 1000 步 之 后 ， 如 图 9-18 所 示 ， 我 们 的 模型 识别 可 以 对 图 像 进行 识别 并 生成 一 些 短语 ， 且 可 
以 正确 识别 出 茶 些 图 像 中 的 对 象 。 但 是 ， 文 本 似乎 简短 而 模糊 ， 且 有 些 图 像 描 述 是 不 正确 的 。 


SOS a train of a clock on a street EOS pd ui SOS a train of a clock on a street EOS 


m 


TQ SOS a man standing on a field EOS » SOS a man is sitting on a table EOS 
SOS a man in a field EOS SOS a man in a building EOS 


$OS a train with a clock on a street EOS SOS a plate of a plate of a table with a table EOS 


SOS a man in a tennis with a tennis on a tennis EOS = PE SOS a man isin a tennis EOS 


9-18 1000 步 之 后 图 像 字 幕 自动 生成 的 示例 


经 过 2000 步 后 ， 我 们 的 模型 已 经 非常 善于 生成 由 正确 语法 组 成 的 可 以 表达 的 短语 ， 如 图 9-19 
所 示 。 
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JU Zz F f 
— m SOS a bus is parked on a street EOS SOS a large boat is sitting on à beach EOS 


SO5 a man holding a woman holding a table LOS 


SOS a giraffe standing in the grass EOS SOS a person is flying a kite in the water EOS 


SOS a large sign sign with a clock on a street EOS g SOS a plate of a plate of food and a plate of food EOS 


SOS a man is playing a tennis ball EOS — $OSaman riding a surfboard on a beach EOS 


图 9-19 2000 步 之 后 图 像 字 幕 自动 生成 的 示例 


经 过 5,000 步 后 ， 我 们 的 模型 可 以 正确 识别 大 部 分 图 像 ， 如 图 9-20 所 示 。 此 外 ， 它 可 以 生成 
高 度 相 关 且 语法 正确 的 短语 来 解释 图 像 中 正在 发 生 的 事情 。 但 它 并 不 是 完美 的 , 例如 我 们 的 算法 得 
到 的 第 4 个 图 像 明 显 是 错误 的 ,图像 实际 上 是 一 个 建筑 物 ， 而 算法 将 它 识别 为 城市 中 的 东西 ,但 无 
法 区 分 建筑 物 ， 将 其 误 认 为 是 时 钟 。 第 8 张 图 像 也 被 错误 识别 ， 图 像 描绘 了 天 空中 的 飞机 ， 但 算法 
将 其 误 认 为 是 放风 律 的 人 。 


SOS a boat boat on à beach with a boat EOS 


SOS a man is holding a cell phone EOS 


SOS a herd of sheep grazing in a field EOS SOS a man flying a kite on à runway EOS 


SOS a street sign with a clock on it EOS SOS a plate of food on a plate EOS 


5O5 a man holding a tennis racket on a tennis court EOS —  SOSaman in a wetsuit suit on a surfboard EOS 


9-20 5000 步 之 后 图 像 字 幕 自动 生成 的 示例 
经 过 10000 步 后 ， 我 们 的 算法 已 经 非常 擅长 摘 述 图 像 了 。 它 正确 地 摘 述 了 大 多 数 图 像 ， 但 它 
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仍然 给 出 了 第 9 个 图 像 的 错误 表达 。 MR oS Y ER, 算法 似乎 认为 这 是 三 明治 , 如 图 9-21 所 示 。 
男 一 个 观察 是 ， 第 7 张 图 像 实际 上 是 一 名 手持 手机 的 女性 ， 但 算法 似乎 认为 是 一 个 男人 。 但 是 , 我 
们 可 以 看 到 该 图 像 背 景 中 有 人 ， 因 此 该 算法 可 能 误 将 前 景 中 的 人 当 作 背景 。 


l ` M 
SOS a boat is sitting on a river EOS 


SOS a man is holding a cell phone EOS 


SOS a giraffe standing in a field with a tree EOS SOS a large jet flying through the sky EOS 


SOS a large building with a clock on the side of a street EOS si T p! SOS a plate of food with a sandwich and a sandwich EOS 


SOS a man is holding a tennis racket on a tennis court EOS A x z L^ 7 SOS aman riding a surfboard on a surfboard EOS 


图 9-21 10 000 步 之 后 图 像 字幕 自动 生成 的 示例 


需要 再 次 说 明 的 一 点 是 , 这 里 使 用 的 数据 样本 只 是 完整 训练 数据 的 三 分 之 一 , 是 在 这 种 情况 下 
获得 的 结果 ， 而 且 模 型 使 用 的 是 简单 的 单 细 胞 的 LSTM 模型 。 我 们 鼓励 大 家 通过 使 用 完整 训练 数 
据 以 及 使 用 具有 更 好 正规 化 (Dropout) 的 多 层 LSTM (或 GRU) 来 促使 模型 性 能 最 大 化 。 


9.7.11 使 用 TensorFlow RNN API 和 预 训 练 的 GloVe 词 向 量 


至 此 ,我 们 已 经 从 头 开 始 实现 了 所 有 内 容 , 对 这 种 系统 的 底层 机 制 有 了 更 深入 的 理解 。 在 这 里 ， 
我 们 将 讨论 如 何 使 用 TensorFlow RNN API 以 及 预 训 练 的 GloVe 词 回 量 ， 以 减少 代码 量 和 算法 的 学 
习 , 有 具体 代码 见 ch9 文件 夹 中 的 9 Istm image caption pretrained wordvecs mn apiipynb 代 码 文 件 。 

我 们 将 首先 讨论 如 何 下 载 词 回 量 ,然后 讨论 如 何 仅 从 下 载 的 文件 中 加 载 相关 的 词 回 量 , 因为 预 
训练 的 GloVe 回 量 的 词汇 量 大 约 为 400 000 个 单词 ， 而 我 们 的 只 有 18 000 个 单词 。 接 下 来 ， 我 们 
将 对 字幕 进行 一 些 基 本 的 拼写 校正 ， 因 为 这 里 似乎 存在 很 多 拼写 错误 。 然 后 我 们 将 讨论 如 何 使 用 
RNN API 中 的 tnnrmn cell. LSTMCell 模块 处 理 已 “清洗 ”的 数据 。 


1. 加 载 GloVe 词 向 量 


首先 ， 从 https://nlp.stanford.edu/projects/glove/ 下 载 现 成 的 GloVe 词 向 量 文件 ， 并 将 其 放 在 ch9 
文件 夹 中 。 接 下 来 ， 我 们 将 定义 一 个 NumPy 数组 来 保存 来 自 GloVe 加 载 的 相关 词 向 量 : 


$8 9:9 利用 LSTM 实现 图 像 字 幕 自动 生成 | 277 


pret embeddings = np.empty(shape-(vocabulary size,50),dtype-np.float32) 


然后 , 我们 将 打开 包含 GloVe WEK ZIP 文件 并 逐 行 读 取 。ZIP 文件 包含 具有 不 同 词 辣 量 大 
小 的 GloVe 的 多 种 不 同 变 体 〈 例 如 50100) 。 我 们 将 使 用 ZIP. 文件 中 的 glove.6B.50d.txt 文件 ， 因 
为 这 是 最 小 的 文件 ， 且 足以 用 于 我 们 试图 解决 的 问题 。 文 件 中 的 每 一 行 都 具有 以 下 格式 〈 以 空格 分 
隔行 中 的 每 个 值 ) : 


dog U11008 -U,.3B81781 -0:3613 70.27114 U.TUDZL . 


在 下 面 的 代码 中 ,我 们 将 展示 如 何 从 文件 中 提取 相关 的 词 回 量 。 首 先 ,我 们 将 打开 ZIP 文件 并 
读 取 文本 文件 (glove.6B.50d.txt) : 


with zipfile.ZipFile('glove.6B.zip') as glovezip: 
with glovezip.open('glove.6B.50d.txt') as glovefile: 


接 下 来 ， 我 们 将 枚 举 文 本 文件 中 的 每 一 行 ， 读 取 该 行 对 应 的 单词 〈 该 行 的 第 一 个 元 素 ) ， 并 读 
取 该 单词 的 相应 词 癌 量 : 


for li, line in enumerate (glovefile): 

# 解码 该 行 以 除去 任何 不 可 解析 的 符号 

line tokens = line.decode('utf-8').split(' "j 
# 获取 单词 

word = line tokens[0] 

# 获取 词 向 量 


vector = [float(v) for v in line tokens[1:]]l 


然后 , 如 果 在 数据 集中 找到 该 单词 , 则 将 该 词 回 量 保存 在 我 们 之 前 定义 好 的 用 于 存储 词 问 量 的 
NumPy 数组 中 。 我 们 将 把 一 个 指定 的 问 量 保存 在 由 dictionary 变量 给 出 的 行 中 ， 该 变量 包含 单词 到 
唯一 ID 的 映射 。 同 时 ， 除 了 指定 的 单词 之 外 ， 我 们 还 将 处 理 通 过 在 单词 的 末尾 添加 撒 号 和 s 而 生 
成 的 单词 〈 例 如 ，cat 一 cats) 。 我 们 使 用 对 应 于 原始 单词 的 词 回 量 〈 例 如 ，cat) 初始 化 这 两 个 变 
体 。 我 们 还 会 把 字幕 中 与 GloVe 中 采 些 单词 匹配 的 所 有 单词 保存 到 words in glove 列表 中 ， 以 便 
于 下 一 步 操作 : 


if word in dictionary.keys(): 
words in glove.append (word) 
pret embeddings[dictionary[word],:] = vector 
words found += 1 


found word ids.append (dictionary [word]) 


word with s = word + '\'s' 

if word with s in dictionary.keys(): 
pret embeddings[dictionary[word with s],:] -vector 
words found += 1 


found word ids.append(dictionary[word with s]) 
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2. “清洗 ”数据 

MS-COCO 数据 集中 存 一 些 拼 写 错误 〈 在 字幕 中 ) 。 因 此 ， 为 了 最 大 限度 地 利用 预 训 练 的 词 回 
量 ， 我 们 需要 纠正 这 些 拼写 错误 ， 以 便 为 这 些 单 词 分 配 相 应 的 词 向 量 。 为 了 纠正 拼写 ， 我 们 使 用 以 
下 程序 。 

首先 ， 我 们 将 找 出 在 GloVe 文件 中 找 不 到 的 单词 的 ID (可 能 是 由 于 拼写 错误 ) : 


notfound word ids = list(set(list(range(0,vocabulary size))) 


-set(found word ids)) 


然后 ， 如 果 在 字幕 中 找到 其 中 的 任何 单词 ， 我 们 将 使 用 以 下 逻辑 来 更 正 这 些 单词 的 拼写 。 

使 用 字符 串 匹 配 来 找到 不 正确 的 单词 (由 ew 表示 ) 和 words in glove 列表 中 的 所 有 单词 (每 
个 由 gw 标识 ) 之 间 的 相似 性 : 

# 对 于 每 个 在 预 训练 词 向 量 中 找 不 到 的 单词 ， 找 到 最 相似 的 拼写 


for gw in words in glove: 


cor, found sim = correct spellings.correct wrong word(cw,gw,cap) 


如 果 这 种 相似 性 大 于 0.9《〈 局 发 式 选 择 ) ， 我 们 将 用 以 下 逻辑 蔡 换 不 正确 的 单词 。 我 们 不 得 不 
对 一 些 单 词 进行 人 工 修正 ,因为 菜 些 单 词 中 存在 多 个 高 度 相 似 的 单词 (例如 , stting 类 似 于 setting): 


def correct wrong word(cwrgwrcap) : 


拼写 纠正 逻辑 
这 是 一 个 非常 简单 的 逻辑 ， 用 最 高 相似 度 的 单词 蔡 换 拼写 错误 的 单词 。 有 些 单词 是 手动 修正 的 ， 因 为 
某 些 单词 存在 高 度 相 似 的 单词 。 
roro 
correct word - None 
found similar word - False 
sim = string similarity (gw,cw) 
if sim»0.9: 
if cw != 'stting' and cw !- 'sittign' and \ 
cw != 'smilling' and \ 
cw!-'skiies' and cw!-'childi' and cw!-'sittion' and \ 
cw!-'peacefuly' and cw!-'stainding' and \ 
cw !— 'staning' and cw!-'lating' and cw!-'sking' and \ 


cw!-'trolly' and cw!-'umping' and cw!-'earing' and \ 


cw !-'baters' and cw !-'talkes' and cw !-'trowing' and \ 
cw !-'convered' and cw !-'onsie' and cw !-'slying': 
print(gw,' ',cw,' ',sim,' (',cap,')') 


correct word = gw 
found similar word - True 
elif cw == 'stting' or cw == 'sittign' or cw == 'sittion': 


correct word - 'sitting' 
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found similar word - True 
elif cw == 'smilling': 

correct word = 'smiling' 

found similar word - True 
elif cw == 'skiies': 

correct word - 'skis' 

found similar word - True 
elif cw == 'childi': 

correct word - 'child' 


found similar word - True 


elif cw == 'onsie': 

correct word = cw 

found similar word - True 
elif cw --'slying': 

correct word - 'flying' 

found similar word - True 
else: 


raise NotImplementedError 


else: 
correct word = cw 
found similar word - False 


return correct word, found similar word 


虽然 并 非 所 有 的 拼写 错误 都 会 被 前 面 的 代码 捕获 到 , 但 是 大 多 数 拼写 错误 都 能 被 定位 , 这 对 我 
们 的 项 目 来 说 已 经 足够 了 。 


3. 使 用 TensorFlow RNN API 进行 预 训 练 词 向 量 


在 对 图 像 字 幕 数据 进 行 预 处 理 之 后 ， 我 们 将 继续 学 习 如 何 将 联合 使 用 RNN API 和 预先 训练 的 
GloVe 词 向 量 。 首 先 ， 我 们 将 讨论 如 何 使 GloVe 向 量 (50) 的 词 向 量 大 小 与 图 像 特征 向 量 (1000) 
的 大 小 相 匹 配 。 此 后 ， 我 们 将 探索 如 何 使 用 TensorFlow RNN API 的 现 有 LSTM 模块 来 学 习 数据 。 
最 后 ,我 们 将 学 习 如 何 将 不 同 模 态 (图 像 和 文本 ) 的 数据 提供 给 模型 ， 因 为 图 像 和 文本 必须 以 不 同 
的 方式 处 理 。 下 面 逐 步 讨 论 相关 的 细节 ， 关 于 完整 的 学 习 模 型 如 图 9-22 所 示 。 
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图 9-22 RNN API 和 预先 训练 的 GloVe 词 向 量 联合 应 用 的 示意 图 


(1) XE XC UII cin] RA ERG LE 
首先 , 我 们 将 定义 一 个 TensorFlow 变量 来 包含 预 处 理 的 词 回 量 。 我 们 将 其 留 作 可 训练 的 变量 ， 
因为 我 们 只 对 茶 些 单词 进行 了 粗略 的 初始 化 (也 就 是 说 , 我 们 使 用 相同 的 词 回 量 来 表示 单词 的 “s” 
形式 的 扩展 ) 。 因 此 ， 随 看 训练 的 继续 ， 词 癌 量 将 得 到 改善 ，: 


embeddings = tf.get variable( 'glove embeddings',shape- [vocabulary size, 50], 
initializer-tf.constant initializer(pret embeddings, dtype-tf.float32)) 


然后 ， 我 们 将 定义 适应 层 的 权重 值 和 偏差 。 适 应 层 接收 [batch _size，50] 大 小 的 输入 ， 这 是 一 批 
GloVe 词 向 量 ， 我 们 将 它 转换 为 [batch_ size，1000] 大 小 的 一 批 向 量 。 这 将 充当 线性 层 ， 该 线性 层 使 
GloVe 词 回 量 调整 为 正确 的 输入 大 小 《以 匹配 图 像 特征 回 量 的 大 小 ) : 


with tf.variable scope('embeddings!'): 
# 我 们 需要 将 输入 的 大 小 与 LSTM 匹配 ， 始 终 与 input size 相同 
# 为 此 我 们 使 用 一 个 密集 层 ， 它 的 输入 大 小 为 50 并 产生 大 小 为 1000 的 输入 《〈 输 入 大 小 ) 
embedding dense = tf.get variable('embedding dense', shape-[50,1000], 
dtype-tf.float32,initializer-tf.contrib.layers.xavier initializer()) 
embedding bias = tf.get variable('embedding bias', dtype-tf.float32, 


initializer-tf.random uniform( shape-[1000], minval--0.1, maxval-0.1)) 
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(2) 定义 LSTM 细胞 和 softmax 层 
接 下 来 , 我 们 将 定义 LSTM 细胞 并 将 它 用 于 图 像 建 模 ， 然 后 是 一 系列 单词 以 及 softmax 层 , 该 
softmax 层 将 LSTM 细胞 的 输出 转换 为 概率 预测 。 我 们 将 使 用 DropoutWrapper( 类 似 于 第 8 章 LSTM 
生成 文本 的 应 用 ) 来 提高 性 能 : 


# LSTM 细胞 和 Dropout 单元 
with tf.variable scope('rnn'!'): 
lstm = tf.nn.rnn cell.LSTMCell (num nodes) 


# 利用 Dropout 来 提高 性 能 
dropout lstm = rnn.DropoutWrapper(cell-lstm, input keep prob-0.8, 
output keep prob-0.8, state keep prob-1.0, dtype-tf.float32) 


在 这 里 ， 我 们 将 定义 softmax 层 的 权重 值 和 偏差 : 


with tf.variable scope('rnn'): 

w — tf.Variable(tf.truncated normal([num nodes, vocabulary size], 
stddev-0.01), name-'softmax weights', trainable-True) 

b — tf.Variable(tf.random uniform([vocabulary size],0.0,0.01), 


name-'softmax bias',trainable-True) 


(3) 定义 输入 和 输出 
现在 定义 输入 和 输出 的 占 位 符 , 它们 将 保存 训练 模型 所 需 的 输入 和 输出 。 我 们 将 有 三 个 重要 的 
占 位 符 ， 分 别 为 : 


€ is train text: 这 是 一 个 num unrollings 的 占 位 符 长 列表 ,其 中 每 个 占 位 符 都 包含 一 个 布尔 
值 ， 表 示 当 前 是 否 在 给 定时 间 步 长 内 输入 图 像 特征 向 量 或 文本 。 这 是 必 不 可 少 的 ， 因 为 
我 们 稍 后 将 定义 输入 处 理 操作 条 件 ( 如 果 布 尔 值 为 false， 就 按 原样 返回 图 像 特征 ; 如 果 
布尔 值 为 ttue， 就 对 输入 执行 全 nn.embedding lookup) . 

€ train inputs: 这 是 含有 num unrollings 占 位 符 的 占 位 符 列表 ， 其 中 每 个 占 位 符 包 含 
[batch_size，1000] 大 小 的 输入 (其 中 1000 是 input size) 。 对 于 图 像 ， 将 输入 图 像 特征 向 
量 ， 而 对 于 文本 ， 将 从 字幕 中 输入 一 批 单词 ID (由 包含 单词 及 其 唯一 ID & dictionary X 
量 返回 ) 。 我 们 将 为 每 个 单词 ID 附加 999 个 零 ， 以 使 输入 大 小 为 1000 ( 处理 时 丢弃 这 
999 4). 

€ train labels: 这 是 一 个 占 位 符 列表 ， 其 中 包含 num unrollings 占 位 符 ， 它 将 包含 指定 输入 
的 相应 输出 (如果 输入 是 图 像 特征 向 量 ， 就 为 SOS; 如 果 输 入 是 单词 ， 就 为 字幕 中 的 下 
一 个 单词 ) 。 


代码 如 下 : 


is train text, train inputs, train labels = [],[];,[] 
for ui in range (num unrollings): 
is train text.append(tf.placeholder(tf.bool, shape-None, 


name-'is train text data $d'$ui)) 
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train inputs.append(tf.placeholder(tf.float32, 

shape-[batch size,input size],name-'train inputs $d'$ui)) 

train labels.append(tf.placeholder(tf.int32, shape-[batch size], name — 
'train labels $d'$ui)) 


(4). 处 理 图 像 和 文本 的 方式 不 同 

这 里 , 我 们 将 理解 使 用 预 训 练 词 癌 量 时 与 从 头 开 始 学 习 词 回 量 时 最 关键 的 区 别 之 一 。 当 我 们 从 
头 开始 学 习 词 回 量 时 ,可 以 灵活 地 使 词 回 量 大 小 与 图 像 特征 回 量 大 小 相 匹 配 。 具 有 相同 的 输入 维度 
是 必须 的 ， 因 为 LSTM 无 法 处 理 具 有 任意 维度 的 输入 。 但 是 ， 由 于 现在 我 们 使 用 的 是 预 处 理 的 词 
HE, 并 且 它 们 与 我 们 指定 的 输入 大 小 不 匹配 , 我 们 需要 使 用 将 50 维 输入 映射 到 1000 维 输入 的 适 
应 层 。 此 外 ， 融 TensorFlow 而 言 ， 我 们 不 需要 进行 先前 的 图 像 特征 癌 量变 换 。 下 面 将 详细 介绍 如 
何 实现 这 一 点 。 

首先 ， 使 用 t£.cond 操作 来 区 分 两 种 不 同 的 处 理 机 制 。 节 cond (pred，true fn. false fn) 操作 可 
以 在 不 同 的 操作 Ctrue fn 和 false fn) 之 间 切 换 ， 有 具体 取决 于 pred 的 布尔 值 是 true 还 是 false。 我 
们 需要 做 到 以 下 两 点 : 


e ”如果 数据 是 图 像 特征 向 量 (is train text 为 false ), 就 不 需要 额外 处 理 。 我 们 将 使 用 t£identity 
操作 简单 地 转发 数据 。 

€ 如果 数据 是 文本 (单词 ID，is_ train text 为 true) ， 我 们 首先 需要 对 一 批 单词 ID (在 第 0 
列 中 找到 的 ) 执行 tnn.embedding lookup 操作 。 接 下 来 ， 我 们 将 通过 适应 层 传 递 返 回 的 
词 向 量 (大 小 为 [batch size. 50]) ， 以 使 用 embedding dense 和 embedding bias 生成 词 向 
X [batch size, 1000] (类 似 于 没有 非 线 性 激活 的 完全 连接 神经 网 络 的 典型 层 ) 。 


我 们 将 处 理 后 的 输入 写 入 train inputs processed: 


train inputs processed = [] 
for ui in range (num unrollings): 
train inputs processed.append( 
tf.cond(is train text[ui], 
lambda: tf.add( 
tf.matmul(tf.nn.embedding lookup( 
embeddings, tf.reduce sum(tf.cast( 
train inputs[ui],tf.int32), 
axis-1) 
),embedding dense),embedding bias), 
lambda: tf.identity(train inputs[ui])) 
) 


我 们 还 需要 设置 train inputs processed 列表 中 找到 的 每 个 张 量 的 形状 , 因为 在 执行 t£.cond 操作 
后 ， 形 状 信息 将 丢失 。 此 外 ，LSTM 细胞 计算 也 需要 形状 信息 : 


[t in.set shape([batch size,input size]) for t in in train inputs processed] 
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(5) 定义 LSTM 输出 计算 
接 下 来 ， 我 们 将 定义 LSTM 细胞 的 初始 状态 : 


initial state = lstm.zero state(batch size, dtype-tf.float32) 


然后 ， 使 用 tfnn.dynamic mn 函数 计算 num unrollings 窗口 中 所 有 时 间 步 长 的 输出 。 下 面 给 出 


在 一 个 时 间 步 长 上 计算 LSTM 的 输出 : 


# 给 出 [num unrolling, batch size, num nodes] 大 小 的 输出 
train outputs, initial state = tf.nn.dynamic rnn( 
dropout lstm, tf.concat([tf.expand dims(t in,axis-0) for t in in 


train inputs processed],axis-0), time major-True, 


initial state-initial state) 


(6) 定义 logits 和 预测 


先前 计算 的 tran output 将 是 [num unrollings,batch size,vocabulary size] 大 小 ， 这 被 称 为 


time-major 格式 。 然 后 ， 为 了 计算 所 有 num unrollings 时 间 步 长 的 LSTM 输出 的 logits 和 预测 ， 我 
们 将 重 塑 最 终 输出 ， 代 码 如 下 : 


的 : 


final output = tf.reshape(train outputs, [-1,num nodes]) 
logits = tf.matmul(final output, w) + b 
train prediction - tf.nn.softmax(logits) 
(7) 定义 序列 损失 
然后 ， 将 logit 和 标签 重新 整形 为 time-major 格式 ， 因 为 这 是 我 们 正在 使 用 的 loss 函数 所 要 求 


time major train logits = tf.reshape(logits,[num unrollings,batch size, 


vocabulary size]) 


time major train labels - tf.reshape(tf.concat(train labels,axis-0), 


[num unrollings,batch size]) 


现在 使 用 tf£.contrib.seq2seq.sequence loss 函数 计算 损失 .我 们 需要 对 整个 批 次 的 损失 进行 平均 ， 


需要 先 对 时 间 步 长 进行 求 和 : 


loss = tf.contrib.seq2seq.sequence loss( 
logits = tf.transpose(time major train logits,[1,0,2]), 
targets — tf.transpose(time major train labels), 


weights- tf.ones([batch size, num unrollings], 
dtype-tf.float32), 

average across timesteps-False, 
average across batch-True 


) 


loss = tf.reduce sum(loss) 
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(8) 定义 优化 器 
最 后 ， 我 们 将 定义 优化 器 ， 该 优化 器 将 针对 先前 定义 的 损失 优化 预 训练 词 租 入 层 、 适 配 层 、 
LSTM 细胞 和 softmax 权重 值 。 随 着 时 间 的 推移 ， 我 们 将 使 用 AdamOptimizer 和 学 习 率 衰减 来 提高 
性 能 。 我 们 像 第 S 章 LSTM 的 应 用 生成 文本 中 所 做 的 那样 使 用 衰减 学 习 率 : 


# 这 个 变量 和 操作 用 于 衰减 学 习 率 ， 正 如 我 们 在 第 8 章 中 看 到 的 那样 
global step = tf.Variable(0, trainable-False) 
inc gstep = tf.assign(global step,global step + 1) 


# 定义 一 个 衰减 的 学 习 率 
learning rate = tf.train.exponential decay( 
0.001, global step, decay steps-1, decay rate-0.795, 


staircase-True) 


# 定义 Adam 优化 器 


optimizer = tf.train.AdamOptimizer(learning rate) 

# 梯度 裁剪 

gradients, v = zip(*optimizer.compute gradients(loss)) 
gradients, = tf.clip by global norm(gradients, 5.0) 
optimizer = optimizer.apply gradients (zip (gradients, v)) 


在 定义 了 所 有 必要 的 TensorFlow 操作 之 后 ， 现 在 可 以 运行 预定 义 步 数 的 优化 过 程 ， 通 过 计算 
测试 数据 上 的 BLEU 分 数 以 及 多 个 测试 图 像 的 预测 进行 相关 处 理 。 详 细 的 过 程 可 以 在 代码 文件 中 
找到 。 


98 总结 


LN 一 


从 图 像 生成 自然 语言 是 一 种 新 兴 的 深度 学 习 应 用 , 它 是 计算 机 视觉 和 自然 语言 处 理 的 交叉 领域 ， 
为 许多 实际 应 用 葛 定 了 技术 基础 。 由 于 深度 学 习 技 术 的 出 现 , 近年 来 我 们 在 这 一 领域 取得 了 一 些 重 
大 进展 。 在 本 章 中 ， 我 们 首先 回顾 了 图 像 字幕 自动 生成 的 主要 发 展 及 其 对 研究 和 行业 部 署 的 影响 ; 
其 次 详细 介绍 了 基于 深度 学 习 的 图 像 字 幕 自动 生成 的 两 大 框架 ; 最 后 对 于 图 像 字幕 的 自动 生成 任务 
进行 了 详解 。 

关于 我 们 在 具体 落实 图 像 字幕 自动 生成 的 任务 中 提 到 的 学 习 模 型 是 一 个 复杂 的 深度 学 习 管 道 ， 
它 包 括 以 下 内 容 : 

e 使 用 CNN 推断 给 定 图 像 的 特征 向 量 。 

@ 学习 字幕 中 的 词 向 量 。 

e 使 用 图 像 特征 向 量 及 其 相应 的 字幕 训练 LSTM。 


在 案例 中 ， 我 们 详细 讨论 了 每 个 组 件 。 首先 ， 我 们 讨论 了 如 何在 大 型 分 类 数据 集 (ImageNet) 
上 使 用 预 训练 的 CNN 模型 来 抽取 良好 的 特征 同 量 ， 而 无 须 从 头 开始 训练 模型 。 为 此 ， 我 们 使 用 了 
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16 层 的 VGG 模型 。 然 后 ， 我 们 逐步 讨论 如 何 创建 TensorFlow 变量 ， 将 权重 值 加 载 到 其 中 并 创建 
神经 网 络 。 最 后 ， 我 们 通过 模型 运行 了 一 些 测试 图 像 ， 以 确保 模型 实际 上 能 够 识别 图 像 中 的 对 象 。 

其 次 ， 我 们 使 用 CBOW 算法 来 学 习 字 幕 中 找到 的 单词 的 合理 词 癌 量 。 需 要 强调 的 一 点 是 ， 我 
们 要 确保 将 词 癌 量 的 维度 与 图 像 特征 癌 量 的 维度 相 匹 配 ， 因 为 标准 LSTM 无 法 处 理 具有 动态 维度 
的 输入 。 

接着 ， 我 们 使 用 简单 的 LSTM 神经 网 络 ， 输 入 序列 数据 ， 其 中 第 一 个 元 素 是 图 像 特征 向 量 ， 
其 前 面 是 对 应 于 属于 该 图 像 字 幕 中 的 词 问 量 。 首 先 ， 我 们 通过 引入 两 个 标签 (SOS 和 EOSO 来 预 
处 理 图 像 字 幕 ， 以 表示 每 个 字幕 的 开头 和 结尾 ， 然 后 截断 字幕 ， 以 便 所 有 字幕 具有 相同 的 长 度 。 

之 后 ， 我 们 讨论 了 几 个 不 同 的 指标 (BLEU, ROUGE, METEOR 和 CIDEr) ， 我 们 可 以 用 它 
们 来 定量 评估 生成 的 字幕 。 可 以 看 到 ， 当 我 们 通过 训练 数据 运行 算法 时 , 随 着 时 间 的 推移 , BLEU-4 
得 分 增加 了 。 此 外 , 我 们 以 可 视 化 方式 检验 了 生成 的 字幕 ， 并 看 到 机 器 学 习 管 道 在 图 像 字 幕 上 自动 生 
成 上 逐渐 变 得 更 好 。 

最 后 , 我 们 讨论 了 如 何 使 用 预 训 练 的 GloVe 词 回 量 和 TensorFlow RNN API 以 更 少 的 代码 和 更 
高 的 效率 执行 相同 的 任务 。 

展望 未 来 ， 虽 然 图 像 字 幕 自动 生成 是 自然 语言 生成 (NLG) 在 自然 语言 处 理 (NLP) 中 的 特殊 
应 用 ， 但 它 也 是 图 像 -自然 语言 多 模 态 智能 领域 的 一 个 子 领域 。 近 年 来 ， 很 多 问题 已 经 被 提出 ， 包 
括 可 视 化 问答 CAgrawal 等 ，2015) 、 视 觉 故事 讲 述 (Huang 等 ，2016) 和 来 自 文 本 描述 的 图 像 合 
成 (Zhang 5$, 2017) 。 而 涉及 上 自然 语言 的 多 模 态 智能 的 进展 ， 实 际 上 是 未 来 建立 通用 人 工 智能 能 
力 的 关键 。 

在 下 一 章 中 ， 我 们 将 学 习 情 感 分 析 的 实现 。 


情感 分 析 


文本 情感 分 析 又 称 为 意见 挖掘 、 倾 回 性 分 析 等 , 简单 而 言 ， 是 对 带 有 情感 色彩 的 主观 性 文本 进 
行 分 析 、 处 理 、 归 纳 和 推理 的 过 程 。 互 联网 (如 博客 和 论坛 以 及 社会 服务 网 络 ( 如 大 众 点 评 ) ) 上 
产生 了 大 量 用 户 参 与 的 、 对 于 诸如 人 物 、 事 件 、 产 品 等 有 价值 的 评论 信息 。 这 些 评论 信息 表达 了 人 
们 的 各 种 情感 色彩 和 情感 倾向 性 ， 如 喜 、 怒 、 衣 、 乐 和 批评 、 赞 扬 等 。 基 于 此 ， 潜 在 的 用 户 就 可 以 
通过 浏览 这 些 主 观 色彩 的 评论 来 了 解 大 众 熏 论 对 于 某 一 事件 或 产品 的 看 法 。 

实际 上 ， 人 工 智 能 中 的 情感 计算 不 是 现 阶 段 才 提出 来 的 ， 人 工 智 能 之 父 明 斯 基 早 就 提 过 。 微软 
全 球 执行 副 总 裁 沈 向 洋 也 说 过 “我 们 的 智能 不 光 有 智商 ， 还 需要 有 情感 ”。 斯 坦 福 人 工 智能 实验 室 
主任 李 飞 飞 也 曾 说 过 “情绪 和 情感 是 人 工 智 能 的 未 来 ”。 

那么 , 什么 是 情感 呢 ? 严格 意义 上 讲 , 情感 就 是 人 对 客观 事物 是 否 满足 自己 需要 而 产生 的 态度 
体验 。 机 器 对 于 情感 的 要 求 就 是 机 器 情感 计算 ,也 就 是 机 器 理解 人 类 的 情感 和 生成 情感 的 能 力 。 所 
以 ， 赋 予 计算 机 情感 计算 能 力 的 研究 引起 了 学 术 界 和 企业 界 的 广泛 关注 。 

在 本 章 中 , 我 们 首先 介绍 一 些 情感 基础 认 知 方面 的 内 容 ， 比 如 情感 分 析 的 理解 及 其 应 用 、 情 感 
问题 的 界定 及 情感 文档 的 分 类 等 ; 其 次 , 我 们 对 于 涉及 情感 分 析 的 具体 组 成 部 分 进行 详细 解读 ， 例 
如 句子 观点 的 主观 性 、 基 于 Aspect 的 情感 分 析 、 情 感 词典 的 生成 、 垃 圾 评论 的 各 种 情况 等 ; 最 后 ， 
我 们 会 利用 TensorFlow 对 于 酒店 评论 样本 数据 进行 详细 解读 。 


10.1. 认识 情感 分 析 


情感 分 析 (有 时 称 为 意见 挖掘 或 情感 人 工 智能 ) 是 指使 用 自然 语言 处 理 、 文 本 分 析 、 计 算 语言 
学 和 生物 统计 学 来 系统 地 识别 、 提 取 、 量化 和 研究 情感 状态 和 主观 信息 , 分 析 人 们 对 实体 (如 产品 、 
服务 、 组 织 、 个 人 人、 问题 、 事 件 、 主 题 及 其 属性 ) 的 意见 、 情 感 、 评 估 、 评 价 、 态 度 和 情绪 等 。 实 
际 上 , 它 代 表 了 一 个 很 大 的 问题 空间 , 相关 名 称 有 很 多 且 任 务 略 有 不 同 , 例如 情感 分 析 、 意见 挖掘 、 
意见 提取 、 情 感 挖 掘 、 主 观 性 分 析 、 情 绪 分 析 、 评 论 挖 掘 等 。 尽管 如 此 ， 这 些 如 今 都 属于 情感 分 析 
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或 意见 挖掘 的 范畴 。 在 工业 界 中 ,情感 分 析 这 个 术语 更 常用 ， 在 学 术 界 ， 情 感 分 析 和 意见 挖掘 都 经 
常 被 使 用 ， 但 它们 基本 上 代表 了 相同 的 研究 领域 。“ 情 感 分析 ” 一 词 可 能 首先 出 现在 Nasukawa 和 
Yi (2003) 的 论文 中 ， 而 意见 挖掘 这 一 术语 最 早出 现在 Dave 等 人 的 文章 中 (2003) 。 然 而 ， 对 情 
感 和 观点 的 研究 较 早 就 已 经 出 现 (Das 和 Chen, 2001; Morinaga 4$, 2002; Pang 等 ,2002; Tong, 
2001; Turney, 2002; Wiebe, 2000) 。 情 感 分 析 和 意见 挖掘 主要 集中 在 表达 或 暗示 积极 或 消极 情 
绪 的 意见 上 。 

一 般 而 言 ,情感 分 析 旨 在 确定 说 话 者 、 作 家 或 其 他 主体 关于 某 个 主题 或 对 文档 、 交 谈 或 事件 的 
整体 语 境 的 情绪 反应 或 态度 。 态 度 可 以 是 判断 或 评价 〈 见 评价 理论 ) 、 情 感 状态 (作者 或 说 话 者 的 
情绪 状态 ) 或 预期 的 情感 交流 〈 也 就 是 说 ， 作 者 或 对 话 者 所 预期 的 情感 效果 ) 。 

在 本 章 中 ,我 们 可 能 交替 使 用 情感 分 析 和 意见 挖 据 这 两 个 术语 。 为 了 简化 ， 在 本 文中 ,我 们 将 
使 用 术语 “意见 ”来 表示 观点 、 情 感 、 评 价 、 态 度 和 情绪 。 但 是 ， 这 些 概念 并 不 等 同 ， 将 在 需要 时 
对 它们 进行 区 分 。 

尽管 语言 学 和 自然 语言 处 理 (NLP) 有 着 悠久 的 历史 ， 但 是 在 2000 年 之 前 ， 对 于 人 们 的 观点 
和 情感 方面 的 研究 却 很 少 。 从 2000 年 起 ， 该 领域 成 为 一 个 非常 活跃 的 研究 领域 。 这 有 几 个 原因 : 
首先 ， 它 的 应 用 范围 非 党 广阔， 几乎 在 每 一 个 领域 都 适用 。 由 于 商业 应 用 的 激增 围绕 情感 分 析 的 
产业 得 以 蓬勃 发 展 。 这 为 研究 提供 了 强大 的 动力 。 其 次 , 它 提供 了 许多 具有 挑战 性 的 研究 问题 ， 这 
在 以 前 从 未 被 研究 过 。 本章 将 系统 地 定义 和 讨论 这 些 问 题 , 并 描述 解决 这 些 问题 的 当前 最 先进 的 技 
术 。 再 次 ,我 们 在 人 类 历史 上 第 一 次 拥有 来 自 网 络 社 交 媒 体 上 巨 量 的 表达 人 们 个 人 观点 的 数据 样本 ， 
没有 这 些 数据 样本 ， 很 多 研究 是 难以 开展 的 。 实 际 上 , 情感 分 析 的 起 步 和 快速 增长 与 社交 媒体 的 步 
调 是 一 致 的 ， 情 感 分 析 已 处 在 社交 媒体 研究 的 中 心 位 置 。 因 此 ， 人 情感 分 析 研 究 不 仅 对 NLP 有 重要 
影响 ， 而 且 可 能 对 管理 科学 、 政 治学 、 经 济 学 和 社会 科学 产生 深远 的 影响 ， 因 为 它们 都 受到 人 们 意 
见 的 影响 。 


情感 分 析 的 应 用 


意见 (或 观点 ) 几乎 是 人 类 所 有 活动 的 核心 ， 因 为 它 是 影响 我 们 行为 的 关键 因素 。 每 当 我 们 需 
要 做 出 决定 时 ,就 想 参 考 一 下 别人 的 意见 。 在 现实 世界 中 , 企业 和 组 织 机 构 总 是 希望 找到 消费 者 或 
公众 对 其 产品 和 服务 的 意见 ， 个 人 消费 者 在 购买 产品 之 前 希望 了 解 现 有 用 户 的 意见 ， 等 等 。 过 去 ， 
当 一 个 人 需要 意见 时 ， 他 会 问 身 边 的 朋友 和 家 人 。 当 一 个 组 织 或 企业 需要 公众 或 消费 者 的 意见 时 ， 
会 进行 细 分 调查 、 民 意 测验 和 焦点 小 组 。 焦 点 小 组 ， 即 小 组 〈 焦 点 ) 座谈 (Focus Group) ， 是 由 
一 个 经 过 训练 的 主持 人 以 一 种 半 结 构 的 形式 与 一 个 小 组 的 被 调查 者 进行 交谈 , 主持 人 负责 组 织 讨 论 。 
小 组 座谈 的 主要 目的 是 通过 倾听 一 组 从 调研 者 所 要 研究 的 目标 市 场 中 选择 来 的 被 调查 者 , 从 而 获取 
对 有 关 问 题 的 深入 了 解 。 这 种 方法 的 价值 在 于 常常 可 以 从 自由 进行 的 小 组 讨论 中 得 到 一 些 意 想不到 
的 发 现 。 对 于 营销 、 公 共 关 系 和 智库 公司 来 说 ， 获 取 公 众 和 消费 者 的 意见 一 直 是 一 块 巨 大 的 业务 。 

随 着 网 络 社 交 媒 体 〈 如 评论 、 论 坛 讨 论 、 博 客 、 微 博 、Twitter 等 ) 的 爆炸 式 增 长 ， 个 人 和 组 
织 越 来 越 多 地 使 用 这 些 媒体 中 的 内 容 进 行 决 策 。 如 今 ， 如果 想 购买 某 类 消费 产品 ， 人 们 不 再 局 限于 
回 朋 友和 家 人 征求 意见 ， 因 为 网 络 上 有 许多 关于 该 产品 的 用 户 评论 和 讨论 。 对 于 一 个 组 织 来 说 ,为 


288 | TensorFlow 与 自然 语言 处 理应 用 


了 收集 公众 意见 ， 可 能 不 再 需要 进行 调查 、 民 意 测验 和 焦点 小 组 ， 因 为 网 络 媒体 上 有 大 量 这 样 的 公 
开 信 息 可 用 。 然 而 ， 由 于 各 种 网 站 的 泛滥 ,在 网 上 查找 和 监控 意见 并 提取 其 中 包含 的 信息 仍然 是 一 
项 艰巨 的 任务 。 每 个 站 点 通常 都 包含 大 量 的 意见 文本 , 在 长 篇 博客 和 论坛 帖子 中 并 不 总 是 很 容易 提 
取 这 些 意见 。 一 般 人 很 难 识别 相关 的 网 站 ， 并 提取 和 总 结 用 户 的 意见 。 因 此 ， 我 们 需要 上 自动 情感 分 

近年 来 , 我 们 目睹 了 社交 媒体 尤其 是 日 媒体 影响 着 公众 的 情感 和 情绪 , 这些 情 绪 既 有 力 地 推动 
了 企业 自身 的 发 展 ， 又 对 我 们 的 社会 制度 完善 产生 了 深远 的 影响 。 由 于 这 些 社交 媒体 大 大 提高 了 大 
众 及 时 反映 社会 中 典型 问题 的 热情 ， 因 此 收集 和 研究 网 络 意见 已 经 变 得 非常 必要 。 当 然 ， 反 映 大 众 
情感 的 文档 不 仅 存 在 于 Web 上 “〈 称 为 外 部 数据 ) ， 许 多 组 织 也 有 其 内 部 数据 ， 例 如 从 电子 邮件 和 
呼叫 中 心 收集 的 客户 反馈 或 从 组 织 进行 的 调查 中 得 到 的 结果 。 

由 于 这 些 社交 媒体 , 尤其 是 自 媒 体 的 深入 应 用 影响 着 越 来 越 多 的 大 众 群 体 , 因此 近年 来 业界 关 
于 大 众 情感 分 析 方 面 的 相关 研究 得 以 壬 勃发 展 。 情 感 分 析 应 用 已 经 扩展 到 几乎 所 有 领域, 从 消费 品 、 
服务 、 医 疗 保健 、 金 融 服 务 到 社交 活动 和 社会 制度 完善 等 。 许 多 大 公司 也 建立 了 自己 的 内 部 功能 ， 
例如 百度 、 阿 里 巴巴 、 小 米 、 微 软 、 谷 歌 、SAP 和 SAS 等 ， 这 些 实际 应 用 正 刺 激 着 情感 分 析 研 究 
的 深入 发 展 。 


10.2 ”情感 分 析 的 问题 


本 节 将 定义 情感 分 析 或 意见 挖掘 问题 的 抽象 概念 。 从 研究 的 角度 来 看 ,这 种 抽象 内 容 为 我 们 提 
供 了 问题 的 陈述 , 使 我 们 能 够 看 到 一 组 丰富 的 相互 关联 的 子 问题 ,这些 子 问题 构成 了 情感 分 析 问 题 。 
人 们 常 说 ， 如 果 不 能 将 问题 进行 结构 化 ,我 们 就 不 可 能 真正 理解 这 个 问题 。 因 此 ， 定义 的 目的 是 从 
复杂 和 令 人 生 戎 的 非 结 构 化 自然 语言 文本 中 抽象 出 一 种 结构 ,结构 化 的 目 然 语言 还 可 以 将 各 类 现 有 
研究 方向 的 框架 进行 统一 , 并 使 得 研究 人 员 能 够 通过 利用 子 问 题 的 相互 关系 来 设计 更 加 鲁 棒 和 更 加 
精确 的 技术 解决 方案 。 从 实际 应 用 的 角度 来 看 , 这 些 定义 让 从 业者 能 够 看 到 在 实际 系统 中 需要 解决 
哪些 子 问题 ， 它 们 是 如 何 关 联 的 ， 以 及 应 该 产生 什么 样 的 输出 。 

与 客观 事实 信息 不 同 , 意见 和 情感 具有 很 强 的 主观 性 特征 。 因 此 ,重要 的 是 要 检查 来 自 许多 人 
的 一 系列 意见 ， 而 不 是 仅仅 来 自 一 个 人 的 单一 意见 ， 因 为 这 种 意见 仅 代 表 这 个 人 的 单一 主观 观点 ， 
通常 不 足以 产生 应 用 效果 。 由 于 网 络 媒体 上 已 经 聚集 了 大 量 意见 , 因此 我 们 可 以 得 到 某 种 形式 的 意 
见 摘 要 (Hu 和 Liu，2004) ， 而 关于 问题 的 定义 将 会 说 明 需 要 哪 类 摘要 。 


问题 的 定义 


情感 分 析 主 要 研究 表达 或 暗示 正面 或 负面 情绪 的 观点 。 因 此 ,本 节 定 义 了 此 背景 下 的 问题 情况 。 
我 们 使 用 以 下 关于 Apple iPhone 8 Plus 手机 的 评论 来 介绍 问题 (为 了 便于 参考 ， 每 个 句子 都 有 
d id 编号 ) : 


发 布 者 : 张 小 明 日 期 : 2018 年 12 月 20 H 
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“D2 个 月 前 我 买 了 iPhone 8 手机 。 只 是 喜欢 它 。@) 男 质 令 人 惊叹 。 由 电池 寿命 也 很 长 。 
@) 然 而 ， 我 的 妻子 认为 这 对 她 来 说 太 重 了 。” 


从 这 篇 评论 中 ， 我 们 注意 到 一 些 重 点 。 


(1) XT iPhone 8 手机 的 评论 有 很 多 正面 和 少量 负面 的 意见 。 句 子 @ 表 达 了 对 苹果 手机 整体 
的 积极 看 法 。 句 子 @ 对 其 显示 的 画面 表达 了 积极 的 看 法 。 句 子 旨 表达 了 对 其 电池 寿命 的 积极 看 法 。 
句子 表达 了 对 手机 重量 的 负面 看 法 。 根 据 这 些 意见 ， 我 们 可 以 做 出 以 下 重要 观察 : 

观察 : 意见 包含 两 个 关键 组 成 部 分 : 目标 g 和 目标 上 的 情绪 s， 即 (g, s) ， 其 中 g 可 以 是 表 
达意 见 的 实体 或 实体 的 任何 方面 (Aspect， 也 称 为 角度 ) ，s 是 正面 、 负 面 或 中 性 情绪 ， 或 表达 情 
绪 力 度 /强度 的 数字 评分 〈 例 如 1-5 颗 星 ) 。 正 面 、 负 面 和 中 立 被 称 为 情绪 (或 意见 ) 取向 (或 极 
性 ) 。 

例如 ， 人 句子 包 中 的 意见 目标 是 iPhone 8， 句 子 @ 中 的 意见 目标 是 iPhone 8 的 画面 质量 。 在 情感 
分 析 文 章 中 ， 目 标 也 被 称 为 主题 。 

(2) 该 评论 有 两 个 人 的 意见 , 被 称 为 意见 来 源 或 意见 持 有 人 (Kim 和 Hovy, 2004; Wiebe 等 ， 
20050 。 句 子 凶 、 句 子 @@ 和 人 句子 中 的 意见 持 有 者 是 评论 的 作者 ( 张 小 明 〉 ， 但 对 于 句子 @@ 来 说 ， 
意见 持 有 者 是 作者 的 妻子 。 

(3) 评论 日 期 是 2018 年 12 月 20 日 。 这 个 日 期 在 实践 中 很 重要 ， 因 为 人 们 经 常 想 知道 意见 是 
如 何 随时 间 和 意见 趋势 而 变化 的 。 


我 们 现在 将 意见 定义 为 4 部 分 。 

定义 (意见) : 意见 是 一 个 四 元 组 的 形式 ， 即 Cg, s, h, t) ， 其 中 g 是 意见 (或 情感 ) 目标 ， 
s 是 关于 目标 的 情感 ，h 是 意见 持 有 者 , t 是 表达 意见 的 时 间 。 这 个 定义 虽然 非常 简洁 ， 但 在 实践 中 
可 能 并 不 容易 使 用 ,特别 是 在 产品 .服务 和 品牌 的 在 线 评论 领域 , 因为 目标 的 完整 描述 可 能 很 复杂 ， 
甚至 可 能 不 会 出 现在 同一 个 句子 中 。 例 如 , ETOF, 意见 目标 实际 上 是 “iPhone 8 的 图 像 质量 ”， 
但 是 句子 仅 提 到 “图 像 质量 ”。 在 这 种 情况 下 ， 意 见 目标 不 仅仅 是 “图 像 质量 ”， 因 为 我 们 不 知道 
这 人 句 话 正在 评估 iPhone 8 手机 的 画面 质量 ， 单 单 句子 @ 中 的 意见 几乎 没 用 。 在 实践 中 ， 目 标 通 常 
可 以 以 多 层次 的 结构 化 方式 进行 分 解 和 描述 , 这 极 大 地 有 助 于 我 们 挖掘 意见 和 随后 使 用 挖掘 的 意见 
结果 。 例如 ，“iPhone 8 的 图 像 质量 ”可 以 分 解 为 实体 和 实体 的 属性 ， 并 表示 为 一 对 : GPhone 8; 
图 像 质量 ) 。 

我 们 这 里 使 用 术语 实体 〈Entity) 来 表示 已 经 评估 的 目标 对 象 。 实 体 的 定义 如 下 (Hu 和 Liu, 
2004; Liu, 2006 和 2011) 。 

Sik (Entity) : 是 产品 、 服 务 、 主 题 、 问 题 、 个 人 人、 组织 或 事件 。 它 用 一 对 e: (OT, WO 来 
描述 ， 其 中 工 是 实体 中 的 部 分 、 子 部 分 等 的 层次 结构 ，W 是 e 的 一 组 属性 。 每 个 部 分 或 子 部 分 也 
有 目 己 的 一 组 属性 。 

示例 1: 特定 型 号 的 手机 是 一 个 实体 ， 例 如 iPhone 8。 它 具有 一 组 属性 ， 例 如 图 像 质量 、 尺 寸 


和 重量 ， 以 及 一 组 部 件 ， 例 如 镜头 、 存 储 卡 和 电池 。 电 池 还 具有 其 自身 的 一 组 属性 ， 例 如 电池 寿命 
和 电池 重量 。 一 个 主题 也 可 以 是 一 个 实体 ， 例 如 ，2018 年 常见 的 词 “ 降 低 税 费 ”， 其 中 包括 “ 降 
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低 个 人 所 得 税 ”“ 降 低 民 营 企业 税 费 ” 和 “降低 外 资 企 业 税 费 ”。 

这 个 定义 本 质 上 描述 了 基于 部 分 关系 的 实体 的 层次 分 解 。 根 节点 是 实体 的 名 称 , 例如 上 面 评论 
中 的 iPhone 8。 所 有 其 他 节点 都 是 部 分 和 子 部 分 等 ， 可 以 在 节点 的 任何 子 节点 和 任何 属性 上 表达 意 
见 。 


示例 2: 在 上 面 的 示例 评论 中 ， 句 子 (2) 表达 了 对 整个 iPhone 8 手机 实体 的 正面 看 法 。 句 子 
(3) 表达 了 对 手机 画面 质量 属性 的 积极 看 法 。 显 然 ， 人 们 还 可 以 表达 关于 手机 的 部 件 或 组 件 的 意 
见 。 


此 实体 作为 任意 数量 级 别 的 层次 结构 都 需要 授 套 关系 来 表示 , 这 对 于 具体 应 用 来 说 通常 过 于 复 
杂 。 主 要 原因 是 ， 由 于 目 然 语 言 处 理 (NLP) 是 一 项 非常 困难 的 任务 ， 因 此 在 不 同 级 别 的 细节 中 识 
别 实体 的 部 分 和 属性 非常 困难 。 大 多 数 应 用 不 需要 这 样 复杂 的 分 析 。 因 此 , 我 们 将 层次 结构 简化 为 
两 个 级 别 ， 并 使 用 术语 “方面 ” (Aspect) 来 表示 部 分 和 属性 。 在 简化 的 树 中 ， 根 节点 仍然 是 实体 
本 身 ， 但 是 第 二 级 〈 第 二 层 ， 也 是 叶子 级 ) 节点 是 实体 的 不 同方 面 《Aspect) 。 这 种 简化 的 框架 是 
实际 情感 分 析 系 统 中 通常 使 用 的 。 


需要 说 明 的 一 点 是 ， 在 研究 文献 中 ， 实 体 (Entity) 也 称 为 对 象 (Object) ， 而 方面 (Aspect) 
也 称 为 特征 (Feature， 如 产品 特征 〉。 但是， 此 处 的 特征 不 应 该 与 机 器 学 习 中 使 用 的 特征 混淆 ， 机 
器 学 习 中 的 特征 表示 的 是 数据 属性 。 为 了 避免 混淆 ， 近 年 来 “方面 ” 变 得 越 来 越 流 行 。 另 外 ， 一 些 
研究 人 员 还 使 用 术语 Facet (部 分 或 方面 ) . Attribute (特征 或 属性 ) ~ Topic (主题 ) ， 并 且 在 特 
定 的 应 用 中 ， 实 体 和 方面 也 可 能 基于 应 用 领域 的 约定 被 称 为 其 他 名 称 。 


在 分 解 意见 (Opinion〉 目标 后 ， 我 们 可 以 重新 定义 意见 (Hu 和 Liu. 的 文章 《Mining and 
Summarizing Customer Reviews) , 2004; Liu Pr (Natural Language Processing》 中 的 Sentiment 
Analysis and Subjectivity, 2010) 。 


定义 意见 : 意见 是 五 元 组 的 形式 ， 即 Cei, aps sie he tO ， 其 中 ei 是 实体 的 名 称 ，ajj 是 e@; 
的 一 个 方面 (Aspect) ，siju 是 实体 ei; 的 方面 a;; 上 的 情感 ，hi 是 意见 持 有 者 ，t 是 hi 表达 意见 的 时 
间 。 情 感 siju 是 正面 的 、 负 面 的 或 中 性 的 , 或 者 用 不 同 的 等 级 /强度 水 平 表示 ,例如 ， 大 多 数 评论 网 
站 上 使 用 1~5 星 等 级 划分 。 当 一 个 意见 相对 于 实体 本 身 而 作为 一 个 整体 时 ， 使 用 特殊 “方面 ”的 
GENERAL 来 表示 。 这 里 ，ei 和 ai 一 起 代表 意见 的 目标 。 


关于 这 个 定义 ， 我 们 继续 给 出 一 些 相 关 的 解释 。 


e 在 这 个 定义 中 ， 我 们 特意 使 用 下 标 来 强调 五 元 组 中 的 5 条 信息 必须 是 相互 对 应 的 。 也 就 
是 说 ， 意 见 sijk1 必 须 由 意见 持 有 者 hi 给 出 关于 在 时 间 t1/ 上 实体 ei 的 方面 qi;。 任 何不 匹配 都 
是 错误 的 。 

e 这 5 个 组 成 部 分 至 关 重 要 ， 缺 少 任何 一 个 都 是 有 问题 的 。 例 如 ， 如 果 没 有 时 间 成 分 ， 我 
们 就 不 能 根据 时 间 来 分 析 对 一 个 实体 的 意见 ， 这 在 实践 中 往往 非常 重要 ， 因 为 两 年 前 的 
意见 和 昨天 的 意见 的 参考 价值 显然 是 不 一 样 的 。 没 有 意见 持 有 人 也 是 有 问题 的 。 例 如 ， 
在 “这 件 事情 以 后 ， 村 长 被 村 里 老百姓 爱戴 ， 但 他 却 受 到 乡里 领导 的 批评 ”这 向 话 中 ， 
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两 个 意见 持 有 者 “村 里 老百姓 ”和 “乡里 领导 ”显然 对 于 “村 长 ”的 意见 是 相反 的 。 

e 该 定义 涵盖 了 一 个 意见 语义 的 大 部 分 内 容 ， 但 不 是 所 有 可 能 的 方面 ( Aspect ) ， 它 可 能 是 
任意 复杂 的 。 例 如 ， 它 没有 和 覆盖 “手机 背面 的 镜头 太 凸 出 ”的 情况 ， 这 表达 了 对 镜头 与 
机 身 不 协调 的 看 法 。 它 也 没有 涵盖 所 表达 的 意见 的 背景 ， 例 如 ，“ 这 辆 车 对 于 一 个 高 个 
子 来 说 太 小 了 ”， 并 不 是 说 这 辆 车 对 每 个 人 来 说 都 太 小 了 。 “高 个 子 ” 是 这 里 所 表达 的 
意见 的 背景 。 还 要 注意 ， 在 最 初 的 实体 定义 中 ， 它 是 部 分 、 子 部 分 等 的 层次 结构 。 每 个 
部 分 都 可 以 拥有 一 组 属性 。 由 于 简化 ， 五 元 组 表示 可 能 导致 信息 丢失 。 例 如 ， “ER” 
是 打印 机 的 一 部 分 (或 一 个 部 件 ) 。 在 打印 机 评论 中 ， 有 人 写 道 “这 台 打 印 机 的 墨盒 价 
格 昂 员 A”。 这 并 不 是 说 打印 机 价格 吊 贵 (这 表明 是 “方面 ”的 价格 意见 ) 。 如 果 一 个 人 
不 关心 墨盒 的 任何 属性 ， 这 秃 话 只 是 给 墨盒 一 个 负面 的 意见 ， 却 变 成 了 有 关 打 印 机 实体 
的 一 个 “方面 ”的 意见 。 然 而 ， 如 果 还 想 研 究 关 于 墨盒 的 不 同 “ 方 面 ”的 意见 ， 例 如 价 
格 和 质量 ， 就 需要 将 墨盒 视 为 单独 的 实体 。 然 后 ， 五 元 组 表示 仍然 适用 ， 但 需要 保存 部 
分 关系 。 当 然 ， 从 概念 上 讲 ， 我 们 可 以 使 用 谈 套 关系 来 扩展 意见 目标 的 表示 。 尽 管 存在 
这 些 限 制 ， 但 对 于 大 多 数 应 用 来 说 ， 该 定义 仍然 涵盖 了 足够 多 的 有 关 意 见 的 基本 信息 。 
正如 我 们 前 面 提 到 的 ， 过 于 复杂 的 定义 会 使 这 个 问题 变 得 极 难 解 决 。 

e 这 个 定义 提供 了 一 个 框架 ， 用 于 将 非 结 构 化 文本 转换 为 结构 化 数据 。 上 面 的 五 元 组 基本 
上 是 一 个 数据 库 模 式 ， 根 据 该 模式 可 以 将 提取 的 视图 放 入 数据 库 表 中 。 然 后 ， 可 以 使 用 
整套 数据 库 管理 系统 (DBMS ) 和 OLAP 工具 来 执行 丰富 的 定性 、 定 量 和 趋势 分 析 。 

e 这 里 定义 的 意见 只 是 一 种 意见 ， 称 为 常规 意见 (Regular Opinion) 。 另 一 种 是 比较 意见 
( Comparative Opinion. Jindal 和 Liu, 2006; Liu, 2006 和 2011) ， 需 要 不 同 的 定义 。 


10.3 情感 文档 分 类 


从 本 节 开 始 , 我 们 将 讨论 当前 主要 的 研究 方向 或 主题 及 其 核心 技术 。 情感 分 类 可 能 是 研究 最 广 
泛 的 话题 (Pang 和 Lee, 2008) 。 它 则 在 将 意见 文档 分 类 为 表达 积极 或 消极 的 意见 或 情感 。 该 任务 
通常 也 称 为 文档 级 情感 分 类 , 因为 它 将 整个 文档 视 为 基本 信息 单元 。 关 于 该 主题 的 绝 大 多 数 研究 都 
是 针对 在 线 评论 进行 分 类 。 因 此 , 我 们 还 在 评论 上 下 文中 定义 了 问题 , 但 该 定义 也 适用 于 其 他 类 似 
的 上 下 文 。 

问题 的 定义 : 对 于 给 定 评估 实体 的 意见 文档 d， 需 要 确定 意见 持 有 者 关于 实体 的 整体 情感 s， 
即 确定 在 五 元 组 中 方面 (Aspect) 的 GENERAL 上 表达 的 s, BH ( , GENERAL, s, ， 2, K 
中 实体 e、 意 见 持 有 人 h 和 意见 时 间 t 假 定 已 知 或 不 相关 。 根 据 s 所 采用 的 数值 (Value) 类 型 ， 这 
里 有 两 种 表述 。 如 果 s 采用 分 类 值 ， 例 如 正 数 和 负数 ， 它 就 是 分 类 问题 ; 如 果 s 采用 给 定 范围 内 的 
数值 或 序数 数值 ， 例 如 1-5， 问 题 就 变 为 回归 。 

为 了 确保 相关 任务 在 实践 中 更 具有 意义 ， 有 研究 人 员 做 了 以 下 隐 含 假设 (Liu, 2010) - 

情感 分 类 或 回归 的 假设 是 : 意见 文档 4 (例如 产品 评论 ) 表达 了 对 单个 实体 e 的 意见 并 且 包 含 
来 自 单个 意见 持 有 者 h 的 意见 。 在 实践 中 ， 如果 一 个 意见 文档 评估 了 不 止 一 个 实体 ， 那么 实体 上 所 
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表达 的 情绪 可 以 是 不 同 的 。 例 如 ,意见 持 有 人 可 能 对 茶 些 实体 持 肯 定 态度 ,对 其 他 实体 持 否 定 态度 。 
因此 , 在 这 种 情况 下 ， 将 一 个 情感 取 回 分 配给 整个 文档 是 没有 实际 意义 的 。 多 个 意见 持 有 者 在 单个 
文档 中 表达 意见 也 没有 多 大 意义 ， 因 为 他 们 的 意见 也 可 能 不 同 。 

此 假设 适用 于 产品 和 服务 的 评论 , 因为 每 个 评论 通常 侧重 于 评估 单个 产品 或 服务 , 并 且 由 单个 
评论 者 所 写 。 然 而 ， 该 假设 可 能 不 适用 于 论坛 和 博客 贴 文 ， 因 为 在 这 样 的 贴 文中 ， 作 者 可 以 表达 对 
多 个 实体 的 意见 并 使 用 比较 句子 来 比较 它们 。 


10.4 句子 主观 性 与 情感 分 类 


文档 级 情感 分 类 对 于 大 多 数 应 用 来 说 可 能 是 过 于 粗糙 的 。 我 们 现在 转 到 句子 级 别 , 即 对 每 个 句 
子 中 所 表达 的 情感 进行 分 类 。 但 是 ， 文 档 和 人 句子 级 别 的 分 类 之 间 没 有 根本 性 的 区 别 ， 因 为 句子 其 实 
只 是 一 个 简短 的 文档 。 研究 人 员 经 常 对 句子 级 分 析 做 出 的 一 个 假设 是 , 句子 通常 包含 单一 意见 。 文 
档 通 常 包含 多 个 意见 。 下 面 以 示例 评论 进行 讨论 。 

“两 周 前 我 买 了 一 部 摩托 罗拉 手机 。 最 初 一 切 都 很 好 ， 声 音 很 清晰 ， 电 池 寿 命 很 长 ， 只 是 它 有 
点 深重。 但 是 ， 它 昨天 停止 了 工作 。” 

第 一 句 话 没有 表达 任何 意见 , 因为 它 只 是 陈述 了 一 个 事实 。 而 所 有 其 他 句子 则 表达 了 明示 或 瞳 
示 的 情感 。 注 意 一 点 ， 通 常 认为 没有 意见 是 中 立 的 。 

问题 定义 ; 给 定 句子 x， 确 定 X 是 表示 正面 、 负 面 或 中 立 (或 没有 ) 意见 。 

这 里 不 使 用 五 元 组 Ce, a, s, h, O 定义 ， 因 为 句子 级 别 分 类 是 一 个 中 间 步 又 。 在 大 多 数 应 
用 中 ， 需 要 了 解 意见 目标 。 只 知道 一 个 句子 表达 了 积极 或 消极 的 意见 ， 而 不 是 意见 所 涉及 的 实体 / 
方面 (Entity/Aspect) ， 其 用 途 是 有 限 的 。 然 而 ， 句 子 级 别 分 类 仍然 有 用 ， 因 为 在 许多 情况 下 ， 如 
果 我 们 知道 在 一 个 句子 中 谈论 了 哪些 实体 和 实体 的 方面 , 这 一 步骤 可 以 帮助 我 们 确定 关于 实体 及 其 
方面 的 意见 是 积极 的 还 是 消极 的 。 

句子 情感 分 类 既 可 以 作为 三 类 分 类 问题 来 解决 , 也 可 以 作为 两 个 独立 的 分 类 问题 来 解决 。 在 后 
一 种 情况 下 ， 第 一 个 问题 〈 也 称 为 第 一 步 ) 是 对 句子 是 否 表达 意见 进行 分 类 。 第 二 个 问题 〈 也 称 为 
第 二 步 ) 将 这 些 意 见 句子 归 类 为 正面 和 负面 类 型 。 第 一 个 问题 通常 称 为 主观 性 分 类 ， 它 确定 一 个 句 
子 是 表达 主观 信息 还 是 事实 (客观) 信息 (Hatzivassiloglou 和 Wiebe，2000; Riloff 等 ，2006; Riloff 
和 Wiebe, 2003; Wiebe 等 ，2004; Wilson 等 ，2004 和 2006; Yu 和 Hatzivassiloglou，2003) 。 客 
观 句 子 被 视 为 不 表达 任何 情感 或 意见 。 这 是 我 们 前 面 讨论 过 的 问题 ,客观 句子 也 可 以 上 暗示 意见 ， 例 
如 ， 在 上 述评 论 中 ，“ 但 是 ， 它 昨天 停止 了 工作 ”是 一 个 客观 的 句子 ,但 它 上 暗示 了 对 手机 的 负面 情 
绪 ， 因 为 这 是 不 受 欢 迎 的 事实 。 因 此 ， 第 一 步 更 适合 将 每 个 句子 分 类 为 评论 者 是 否 有 自己 的 意见 ， 
无 论 是 主观 的 还 是 客观 的 。 
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10.5 ”基于 方面 (Aspect) 的 情感 分 析 


本 节 关 注 基于 方面 (Aspect) 的 词组 和 词 级 别 情感 分 类 。 其 实 ， 在 文件 或 句子 层面 对 意见 文本 
进行 分 类 通常 不 能 满足 我 们 的 实际 应 用 , 因为 它们 没有 识别 意见 目标 或 为 这 些 目标 指定 情绪 。 即 使 
我 们 假设 每 个 文档 评估 的 是 单个 实体 , 关于 实体 正面 意见 的 文档 并 不 意味 着 作者 对 实体 的 所 有 方面 

(Aspect) 都 是 积极 的 意见 。 同 样 ， 负 面 意见 的 文档 并 不 意味 着 作者 对 一 切 都 持 消极 意见 。 为 了 进 
行 更 加 完善 的 分 析 ， 我 们 需要 发 现实 体 的 各 个 方面 (Aspect) 并 确定 每 个 方面 的 情感 是 积极 的 还 是 
消极 的 。 

为 了 提取 这 些 细 节 ， 我 们 进入 方面 CAspec 层级 ， 在 Hu 和 Liu (2004) 的 文章 中 ， 这 也 被 
称 为 基于 特征 的 观点 挖掘 〈 意 见 挖掘 的 另外 一 种 说 法 ) 。 请 注意 ， 如 10.2 节 所 述 ， 意 见 目 标 被 分 
解 为 实体 及 其 方面 (Aspect) 。 方 面 (Aspect) 上 的 GENERAL 用 于 在 结果 中 表示 实体 本 身 。 因此， 
基于 方面 (Aspect) 的 情感 分 析 涵 盖 实 体 和 方面 (Aspect) 。 它 还 引入 了 一 系列 问题 ， 这 些 问 题 需 
要 更 深 次 的 自然 语言 处 理 (NLP) 功能 ， 并 可 以 产生 更 丰富 的 结果 。 

回想 一 下 ， 在 方面 (Aspect) 层面 ， 目 标 是 发 现 给 定 文档 d 中 的 每 个 五 元 组 Ceis aij Sije 
hy, ti) « 73S: — HER, idu 6 项 任务 。 本 节 主 要 给 出 下 面 列 出 的 两 个 核心 任务 ， 研 究 人 
员 也 对 它们 进行 了 广泛 的 研究 。 

提取 方面 (Aspect) : 此 任务 是 提取 已 评估 的 方面 (Aspect) 。 例 如 ， 在 句子 中 ，“ 这 款 手机 

的 语音 质量 令 人 惊叹 ”， 方 面 (Aspect) 是 “这 天 手机 ”所 代表 的 实体 的 “语音 质量 ”。 请 注意 ， 
“这 款 手 机 ”并 不 表示 此 处 的 方面 (Aspect) 的 GENERAL， 因 为 评估 不 是 关于 整个 手机 ， 而 是 关 
于 它 的 语音 质量 。 然 而 ， 句 子 “ 我 喜欢 这 款 手 机 ” 则 是 评估 整个 手机 ， 即 “这 蒜 手 机 ”所 代表 的 实 
体 的 方面 (Aspect) 的 GENERAL。 记 住 ， 每 当 我 们 谈论 一 个 方面 (Aspect) 时 ， 我 们 必须 知道 它 
属于 哪个 实体 。 在 后 面 的 讨论 中 ， 我 们 经 常 省 略 实体 ， 只 是 为 了 简化 说 明 。 

方面 (Aspect) 情感 分 类 : 此 任务 决定 了 不 同方 面 (Aspect) 的 意见 是 积极 的 、 消 极 的 还 是 中 
立 的 。 在 上 面 的 第 一 个 例子 中 ， 对 “语音 质量 ”方面 (Aspect) 的 看 法 是 积极 的 。 在 第 二 部 分 ， 关 
于 方面 (Aspect) 的 GENERAL 的 意见 也 是 积极 的 。 

请 注意 ， 在 应 用 中 可 能 会 给 出 意见 目标 ， 因 为 用 户 只 对 这 些 特定 目标 (例如 ,BMW 和 Ford 
品牌 ) 感 兴 趣 。 在 这 种 情况 下 ， 我 们 不 需要 执行 实体 或 方面 (Aspect) 的 提取 ， 而 只 需 确定 目标 上 
的 情感 即 可 。 


10.6 ”情感 词典 生成 


显然 , 如 果 文 本 传递 出 积极 或 消极 情绪 的 词汇 和 短语 ， 将 会 有 助 于 我 们 开展 情感 分 析 工 作 。 本 
节 简 要 介绍 如 何 编译 这 样 的 词 列 表 。 在 研究 文献 中 ， 情 感 词 也 称 为 意见 词 、 极 性 词 或 意见 承载 词 。 
正面 情绪 词 用 于 表达 一 些 期 望 的 状态 或 品质 ， 而 负面 情绪 词 则 用 于 表达 一 些 不 期 望 的 状态 或 品质 。 
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积极 情绪 词 如 “美丽 的 ”、“ 精 彩 的 ”和 “惊人 的 ”等 。 负面 情 绪 词 如 “ 坏 的 ”、“ 可 怕 的 ”和 “ 差 
的 ”等 。 除 了 单个 词 之 外 , 还 存在 情感 短语 和 习 语 。 总 的 来 说 , 它们 被 称 为 情感 词典 (或 意见 词典 )。 
为 了 便于 说 明 ， 从 现在 开始 ， 当 我 们 说 出 情感 词 时 ， 我 们 指 的 是 单个 词 和 短语 。 

情感 词 可 分 为 两 种 类 型 : 基本 类 型 和 比较 类 型 。 上 面 的 所 有 示例 词 都 是 基本 类 型 。 比 较 类 型 的 
情感 词 (包括 最 高 级 类 型 ) 用 于 表达 比较 和 最 高 级 的 观点 ， 如 “更 好 的 ”“ 更 差 的 ”“ 最 好 的 "”“ 最 
差 的 ”等 ,它们 是 形容 词 或 副词 的 比较 和 最 高 级 形式 。 与 基本 类 型 的 情感 词 不 同 ， 比 较 类 型 的 情感 
词 不 表达 对 实体 的 常规 意见 ， 而 是 对 多 个 实体 的 比较 意见 , 例如“ 百事可乐 比 可 口 可 乐 更 好 哆 ”这 
句 话 没有 表达 这 两 种 饮料 中 的 任何 一 种 是 好 的 或 差 的 观点 。 它 只 是 说 与 可 口 可 乐 相 比 , 百事 可 乐 味 
道 更 好 。 

研究 人 员 还 提出 了 许多 编制 情感 词 的 方法 。 三 种 主要 的 方法 是 : 手工 方法 、 基 于 字典 的 方法 和 
基于 语料库 的 方法 。 手工 方 法 是 劳动 密集 型 且 耗 时 的 ， 因此 通常 不 单独 使 用 ,而 是 与 日 动 化 方法 结 
合 在 一 起 作为 最 终 的 检查 使 用 ， 因 为 目 动 化 方法 有 时 会 出 错 。 


10.7 意见 摘要 


在 大 多 数 情 感 分 析 应 用 中 ， 人 们 需要 研究 许多 人 的 意见 ， 由 于 意见 的 主观 性 , 仅 查 看 单个 人 的 
意见 通常 是 不 够 的 ， 需 要 某 种 形式 的 摘要 。 在 10.2 节 中 ， 我 们 知道 意见 五 元 组 提供 了 意见 摘要 的 
基本 信息 ， 这 样 的 摘要 被 称 为 基于 方面 (Aspect) 的 摘要 (或 基于 特征 的 摘要 ) ， 这 在 Hu 和 Liu 

(2004) 和 Liu 等 (2005) 的 论文 中 被 提出 ， 且 大 部 分 意见 摘要 研究 都 采用 了 这 种 类 型 的 思想 。 该 
框架 在 业界 得 到 了 广泛 的 应 用 ， 例 如 ，Microsoft Bing 和 Google Product Search 的 情感 分 析 系 统 就 
使 用 了 这 种 形式 的 摘要 。 和 输出 摘要 可 以 是 结构 化 形式 ， 也 可 以 是 非 结构 化 形式 。 

一 般 来 说 ， 意 见 摘 要 可 以 被 看 作 多 文档 文本 摘要 的 一 种 形式 。 文 本 摘要 在 NLP (DAS, 2007) 
中 得 到 了 广泛 的 研究 。 但是， 意见 摘要 与 传统 的 单一 文档 或 多 文档 摘要 (事实 信息 ) 大 不 相同 ， 
为 意见 摘要 通常 以 实体 、 方 面 (Aspect) 和 关于 它们 的 情感 为 中 心 ， 并 且 具 有 定量 的 一 面 ， 这 是 基 
于 方面 (Aspect) 的 观点 的 本 质 所 在 。 传 统 的 单 文 档 摘要 通过 从 长 文本 中 提取 一 些 “ 重 要 ”句子 以 
生成 短文 本 , 而 传统 的 多 文档 摘要 发 现 了 文档 之 间 的 差异 后 就 丢弃 了 重复 的 信息 。 它们 既 没 有 明确 
地 捕捉 到 文档 中 讨论 的 不 同 主题 /实体 及 其 方面 (Aspect) ， 也 没有 定量 的 一 面 。 传 统 文 本 摘要 中 
句子 的 “重要 性 ”通常 是 基于 每 个 系统 中 使 用 的 摘要 算法 和 度量 的 定义 。 男 一 方面 ， 意见 摘要 可 以 
在 概念 上 定义 。 因 此 ， 摘 要 是 有 条 理 的 ， 即 使 对 于 短文 本 文档 的 输出 摘要 ， 其 中 仍然 会 存在 一 些 明 
确 的 结构 形式 。 


10.8 比较 观点 分 析 


除了 直接 表达 对 实体 及 其 方面 (Aspect) 的 正面 或 负面 的 意见 外 ， 还 可 以 通过 比较 类 似 实体 来 
表达 意见 。 这 种 观点 被 称 为 比较 意见 (Jindal 和 Liu, 2006a, 2006b) 。 比 较 意见 与 常规 意见 有 关 ， 


第 10 章 情感 分 析 | 295 


但 也 有 所 不 同 。 它 们 不 仅 具 有 不 同 的 语义 ， 而且 具 有 不 同 的 句法 形式 。 例 如 ，“ 这 球 手 机 的 语音 质 
旺 惊 人 ”是 一 个 典型 的 常规 意见 句子 ， 而 “请 基 亚 手机 的 语音 质量 优 于 iPhone 手机 ”是 典型 的 比 

意见 句子 。 这 个 比较 句子 并 没有 说 明 任 何 手机 的 语音 质量 好 坏 ， 只 是 比较 它们 。 由 于 这 种 差异 ， 
比较 意见 需要 不 同 的 分 析 技 术 。 和 普通 句子 一 样 , 比较 句子 也 可 以 有 上 自己 的 见解 或 没有 目 己 的 见解 。 
上 面 的 比较 句子 之 所 以 有 目 己 的 见解 ， 是 因为 它 明 确 地 表达 了 作者 的 比较 情绪 ， 而 “iPhone 手机 
比 普 通 许 基 亚 手 机 宽 1 英寸 ” 则 没有 表达 出 上 自己 的 见解 。 


10.9 意见 搜索 


由 于 Web 搜索 已 被 证 明 是 Web 上 的 一 项 有 价值 的 服务 ， 因 此 不 难 想象 ， 意 见 搜 索 也 会 有 很 大 
用 处 。 两 种 典型 的 意见 搜索 是 : 


e 查找 有 关 特 定 实体 或 实体 的 方面 ( Aspect ) 的 公众 意见 。 例 如 ， 查 找 客户 对 手机 质量 的 看 


@ 查找 个 人 或 组 织 (意见 持 有 者 ) 对 某 个 特定 实体 (或 主题 ) 或 实体 某 个 方面 C Aspect) 的 
意见 。 例 如 ， 查 找 巴 拉克 奥巴马 关于 堕胎 的 意见 。 这 种 类 型 的 搜索 尤其 与 新 闻 文 章 相 
关联 ， 在 新 闻 文章 中 ， 表 达意 见 的 个 人 或 组 织 将 被 明确 地 列 出 。 


对 于 第 一 类 查找 , 用 户 可 以 简单 地 给 出 实体 的 名 称 或 带 有 实体 名 称 的 某 方面 (Aspect) 的 名 称 。 
对 于 第 二 类 查找 ， 用 户 可 以 给 出 意见 持 有 者 的 姓名 和 实体 〈 或 主题 ) 的 名 称 。 


10.10 垃圾 评论 检测 


10.10.1 垃圾 评论 概述 


随 着 社交 媒体 的 快速 发 展 ,来 自 网 络 上 的 评论 意见 越 来 越 多 地 影响 着 组 织 或 个 人 进行 购买 决策 
的 制定 、 投 票 和 市 场 产品 设计 等 事宜 。 对 于 公司 和 个 人 而 言 ， 正 面 的 评论 意见 常常 意味 着 更 高 的 利 
泪 和 更 好 的 口碑 。 有 研究 表明 : TE Yelp.com 网 站 上 ,如果 增加 半 颗 星 评 分 , 就 能 帮 和 餐馆 提升 约 19% 
的 销量 (Anderson 和 Magruder, 2012) , 平均 评分 各 增长 一 颗 星 , 将 种 来 5%~9% 的 利润 增长 Luca, 
2011)。 由 于 商人 对 于 利润 和 市 场 规模 的 追逐 , 网络 媒体 上 出 现 了 越 来 越 多 的 虚假 评论 或 虚假 意见 。 
通过 发 布 这 种 虚假 的 意见 或 评论 来 达到 推销 或 认 毁 一 些 目标 产品 、 服 务 、 组 织 或 个 人 的 目的 。 这 样 
的 个 人 或 组 织 称 为 垃圾 评论 发 布 者 COpinion Spammer) , 他 们 的 活动 被 称 为 垃圾 评论 发 布 (Opinion 
Spamming) 。 

目前 ， 垃 圾 评论 已 经 十 分 普遍 。 例 如 ， 有 调查 研究 表明 ， 在 Yelp.com 网 站 上 有 接近 25% 的 评 
论 是 欺骗 性 的 评论 (http://www.bbc.com/news/technology-24299742) 。 相 比 于 商业 评论 ， 针 对 社交 
和 政治 事件 发 布 垃圾 评论 的 活动 具有 更 大 的 危害 性 ,它们 可 能 会 利用 垂 曲 的 意见 或 观点 来 将 民众 调 
动 到 法 律 和 道德 的 对 立 面 上 。 因 此 ， 为 了 使 得 社交 媒体 继续 作为 公开 意见 或 观点 的 可 信 来 源 ， 而 不 
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是 充斥 着 越 来 越 多 的 欺骗 .谎言 与 伪造 观点 或 意见 ,垃圾 评论 检测 有 着 极其 重要 的 意义 和 研究 价值 。 

个 人 和 组 织 越 来 越 多 地 使 用 社交 媒体 的 意见 来 做 出 购买 决定 ， 并 在 营销 、 产 品 设计 、 产 品 或 服 
务 投诉 等 方面 做 出 自己 的 选择 。 积 极 的 意见 通常 意味 着 企业 和 个 人 的 利益 和 名 誉 得 以 维系 ， 而 不 幸 
的 是 ， 通 过 发 布 虚假 的 意见 或 评论 来 促进 或 旗 毁 某 些 目标 产品 、 有 服务、 组织、 个人， 实际 上 就 刺激 
了 大 家 围观 和 加 入 其 中 的 冲动 。 这些 人 被 称 为 垃圾 评论 发 送 者 , 他 们 的 活动 被 称 为 垃圾 评论 Jindal 
和 Liu, 2007, 2008) 。 关 于 社会 和 政治 与 论 的 垃圾 评论 甚至 可 能 令 人 恐惧 ， 因 为 它们 可 以 垩 曲 意 
见 并 煽动 群众 反对 法 律 或 道德 规范 。 可 以 肯定 地 说 , 随 着 社交 媒体 中 的 意见 越 来 越 多 地 被 用 于 实践 ， 
垃圾 评论 将 变 得 越 来 越 猩 狐 和 复杂 ， 这 样 一 来 ,对 于 它们 的 检测 将 面临 更 大 的 挑战 。 但是， 它们 必 
须 被 检测 ， 以 确保 社交 媒体 继续 成 为 公众 舆论 的 可 靠 来 源 ， 而 不 是 充满 虚假 的 观点 、 虚 假 的 意见 、 
Die Fi AURK Bjr o 

研究 人 员 已 经 在 许多 领域 进行 了 垃圾 评论 检测 的 研究 工作 ， 而 研究 最 多 的 两 类 是 Web 垃圾 网 
页 信息 和 垃圾 邮件 。 然 而 ， 垃 圾 评论 却 大 不 相同 。 有 两 种 主要 类 型 的 Web 垃圾 ， 即 垃圾 链接 和 垃 
圾 内 容 (Castillo 和 Davison，2010; Liu, 2006 和 2011〉。 垃 圾 链接 是 超 链接 上 的 垃圾 信息 ， 在 评 
论 中 几乎 不 存在 。 虽然 广 告 链接 在 其 他 形式 的 社交 媒体 中 很 常见 , 但 它们 相对 容易 被 发 现 。 垃圾 内 
容 会 在 目标 网 页 中 添加 流行 (但 不 相关 ) 的 关键 词 ， 以 欺骗 搜索 引擎 使 其 与 许多 搜索 查询 相关 , 但 
是 这 种 情况 很 少 出 现在 评论 文章 中 。 而 垃圾 邮件 是 指 未 经 请 求 的 广告 ,这 在 在 线 网 络 意见 中 很 少见 。 

垃圾 评论 检测 的 主要 挑战 是 , 与 其 他 形式 的 垃圾 评论 不 同 , 通过 人 工 阅 读 来 识别 虚假 意见 是 非 
党 困难 的 ， 这 很 难 找到 垃圾 评论 数据 来 帮助 设计 和 评估 检测 算法 。 对 于 其 他 形式 的 垃圾 评论 ， 人们 
可 以 相当 容易 地 识别 它们 。 

事实 上 ， 在 极端 情况 下 ， 仅 仅 通过 阅读 垃圾 评论 在 逻辑 上 是 不 可 能 识别 的 。 例 如 ， 人 们 可 以 为 
一 家 好 餐馆 写 一 份 真 实 的 评论 ， 然 后 将 其 发 布 为 对 坏 餐 馆 的 虚假 评论 ， 以 便 推 广 它 。 如 果 不 考 虑 评 
论文 本 本 里 之 外 的 信息 , 就 无 法 检测 到 这 种 虚假 评论 ， 因为 不 能 同时 为 同一 评论 给 出 真实 和 虚假 的 
两 个 标签 。 


10.10.2 垃圾 评论 的 类 型 


Jindal 和 Liu (2008) 经 过 分 析 指 出 ， 商 业 网 站 上 目前 主要 有 以 下 三 种 类 型 的 垃圾 评论 。 


e 类 型 1 (虚假 评论 ) : 这 些 评论 都 是 评论 者 对 真实 产品 或 服务 没有 实际 使 用 经 历 和 体验 
的 非 真实 评论 。 其 中 蕴含 着 一 些 隐藏 的 动机 。 通 常情 况 下 ， 他 们 会 针对 目标 实体 (产品 
或 服务 ) 发 表 不 应 得 的 正面 评价 ， 以 促销 实体 (产品 或 服务 ) ; 或 用 不 公正 的 虚假 负面 
评论 来 诉 毁 目标 实体 的 声誉 。 

e 类 型 2 ( 仅 关 于 品牌 的 评论 ) : 这 些 评论 没有 如 期 望 地 评论 具体 的 产品 或 服务 ， 而 是 对 
品牌 或 产品 的 制造 商 发 表 评 论 。 虽 然 评 论 可 能 是 真实 的 ， 但 因为 它们 没有 针对 具体 的 产 
品 ， 而 且 往往 是 有 偏见 的 ， 因 而 被 视 为 垃圾 评论 。 例 如 ， 一 个 关于 特定 型 号 的 HP 打印 机 
评论 说 : “我 讨厌 HP， 我 从 来 不 买 他 们 的 任何 产品 ”。 

e 类 型 3 ( 非 评 论文 本 ) : 这 类 垃圾 评论 往往 都 不 是 评论 ， 其 包含 两 种 类 型 : (1) 广告 ; 
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(2) 不 含 观点 的 〈 例 如 问题 、 答 生 和 随机 文本 ) 不 相关 文本 。 严 格 地 说 ， 它 们 不 被 当 作 
评论 ， 因 为 它们 没有 提供 用 户 对 于 产品 和 服务 的 意见 和 评论 。 


目前 , 类 型 2 和 类 型 3 的 垃圾 评论 比较 罕见 , 而 且 很 容易 用 基于 监督 学 习 的 统计 模型 或 者 给 定 
模板 加 以 检测 (Jindal 和 Liu, 2008) 。 即 使 没有 检测 到 它们 ， 也 不 是 大 问题 ， 因 为 读者 在 阅读 过 
程 中 很 容易 发 现 它 们 。 因 此 ， 现 有 的 大 量 研究 工作 主要 关注 类 型 1 的 垃圾 评论 检测 研究 ， 即 虚假 评 
论 检测 。 


10.410.3 ”可 观察 到 的 信息 


垃圾 评论 活动 本 身 具 有 很 高 的 隐蔽 性 ， 垃 圾 评论 者 在 评论 网 站 上 留 下 的 搜索 浏览 记录 、 卫 XE 
移 变 更 速率 、 客 户 端 登录 等 信息 对 于 检测 垃圾 评论 十 分 有 效 , 但 这 些 信 息 对 于 评论 网 站 本 身 是 极为 
保密 且 有 价值 的 信息 。 虽 然 dianping.com、yelp.com 等 网 站 开发 了 高 效 的 垃圾 评论 过 滤 算 法 ， 但 其 
算法 细节 与 所 用 数据 信息 都 是 保密 的 。 相 比 之 下 ， 对 于 学 术 界 而 言 ， 所 能 获取 的 数据 信息 就 比较 有 
UR f. 主要 就 是 普通 用 户 在 网 站 页 面 上 浏览 到 的 信息 。 但 学 术 界 做 出 了 大 量 的 研究 页 献 并 得 出 了 很 
多 有 价值 的 结论 。 图 10-1 展示 了 学 术 界 目前 所 能 利用 的 数据 信息 (以 yelp.com 数据 为 例 ) 。 
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Pi ' ' 
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10-1 可 观察 到 的 信息 


如 图 10-1 所 示 ， 对 于 产品 的 评论 页 面 而 言 ， 其 中 包含 元 数据 和 文本 数据 。 元 数据 : 主要 指 的 
是 用 户 发 表 评 论 的 基本 信息 ， 包 括 用 户 名 、 用 户 所 在 城市 、 用 户 朋 友 数 目 、 用 户 发 表 过 的 评论 数 、 
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该 条 评论 的 评分 、 发 布 日 期 、 所 获得 的 有 帮助 的 反馈 数 等 时 间 、 地 理 、 社 交 维 度 方面 的 数据 ， 以 及 
包括 对 于 被 评价 实体 (产品 、 宾 馆 或 餐厅 7) 页面 所 包含 的 元 数据 中 有 实体 的 平均 分 数 、 实 体 所 在 地 、 
实体 所 获得 评论 的 数量 等 元 数据 ; 文本 数据 : 这 条 评论 的 文本 内 容 ; 行为 数据 : 在 整个 评价 系统 中 ， 
用 户 、 评 论 、 被 评价 实体 三 者 构成 了 一 种 网 络 图 结构 。 在 这 个 图 中 ,涵盖 了 用 户 评 价 的 行为 踪迹 ， 
这 种 用 户 的 行为 踩 迹 被 视 为 是 天 于 用 户 评论 的 行为 数据 。 而 元 数据 、 文 本 数据 、 行 为 数据 部 是 可 以 
被 用 来 挖掘 有 效 特征 的 数据 信息 。 


10.10.4 数据 样本 


在 日 党 生活 中 , 我 们 经 常 听 到 一 句 话 : 巧 妇 难为 无 米 之 炊 。 由 于 垃圾 评论 活动 本 身 的 隐蔽 性 和 
难 标注 性 , 一 个 合理 的 数据 集 对 于 研究 工作 会 起 到 很 大 的 支撑 作用 。 下 面 我 们 罗列 出 一 些 研究 人 员 
实验 过 的 数据 集 。 


€ Amazon 数据 集 : 垃圾 评论 检测 的 问题 是 由 Jindal 和 Liu 于 2008 年 第 一 次 提出 的 。 他 们 
收集 了 来 自 Amazon.com 的 数 百 万 条 评论 数据 ,假设 垃圾 评论 发 布 者 为 节省 精力 而 重复 利 
用 已 有 评论 ， 进 而 将 重复 性 的 评论 当 作 垃圾 评论 数据 。 但 由 于 缺乏 标注 的 数据 集 ， 该 工 

只 是 简单 地 将 重复 性 的 评论 当 作 垃圾 评论 数据 来 训练 模型 ， 因 而 会 错过 分 析 很 多 非 重 

复 性 的 伪装 性 很 高 的 垃圾 评论 。 

€  Reselleratings 数据 集 : Wang 等 人 2011 年 第 一 次 提出 了 应 用 图 模式 (Graph Model ) 来 解 
决 垃圾 评论 检测 问题 ， 也 是 第 一 次 关于 店铺 评论 检测 的 研究 工作 。 该 数据 集 来 自 于 网 站 
www.resellerratings.com 上 的 店铺 评论 数据 ， 采 用 人 工 方式 标注 数据 。 Mukherjee 等 人 于 
2012 年 同样 利用 了 www.resellerratings.com 上 的 数据 , 并 进行 了 垃圾 评论 用 户 组 的 研究 工 
1E. 

€ Tripadvisor 数据 集 : 由 于 缺乏 人 工 标 注 的 数据 集 ，Ott 等 人 于 2011 年 借助 于 Amazon 
Mechanical Turk, 运用 众 包 的 方法 ， 即 在 AMT 网 站 上 发 布 有 偿 任务 ， 雇 佣 他 人 撰写 关于 
宾馆 或 餐馆 的 伪造 评论 ， 提 出 了 第 一 个 垃圾 评论 检测 的 Gold-Standard 数据 集 。 对 于 非 垃 
圾 评论 数据 的 收集 ，Ott 等 人 认为 ， 具 有 大 量 评论 且 平 均 分 较 高 的 宾馆 或 餐馆 ， 对 于 采用 
负面 评论 旗 毁 而 拉 低 评分 的 垃圾 评论 的 攻击 活动 已 无 攻击 价值 ， 因 为 基于 大 量 评论 的 平 
均 评 分 很 难 被 少量 负面 评价 拉 低 . 于 是 Ott 等 人 于 2011 年 在 Tripadvisor 网 站 上 收集 了 这 
样 的 若干 五 分 评论 作为 非 垃 圾 评论 。Ott 等 人 于 2013 年 通过 添加 伪造 的 负面 评论 对 其 
2011 年 的 数据 集 进 行 了 扩充 . Jiwei Li 等 人 于 2014 年 将 Ott 等 人 2011 年 收集 的 数据 集 扩 
展 到 了 多 个 领域 ， 并 加 入 了 来 自 专家 的 伪造 评论 进行 了 实验 。 但 是 ， 该 数据 集 采 用 众 包 
的 方式 收集 到 的 垃圾 评论 并 非 来 自 于 专业 垃圾 评论 者 ， 缺 乏 商 业 上 的 真实 性 与 实战 性 。 
Mukherjee 等 人 于 2013 年 运用 Ott 等 人 2011 年 收集 得 到 的 训练 好 的 模型 在 来 自 Yelp.com 
上 的 真实 商业 性 的 数据 集 上 进行 测试 ， 得 到 了 68% 的 准确 率 ， 并 统计 观察 发 现 Ott 等 人 
2011 年 收集 的 数据 集中 真 伪 评论 的 词 分 布 的 差异 性 相 比 真实 商业 性 数据 要 大 很 多 。 
Mukherjee 等 人 在 文中 表明 , X É Amazon Mechanical Turk 的 评论 撰写 者 并 不 一 定 是 商业 
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网 站 中 专业 的 或 有 经 验 的 垃圾 评论 发 布 者 ， 且 受到 的 经 济 利益 驱动 也 不 大 (AMT 上 发 布 
的 任务 报酬 及 收集 评论 数 都 很 少 ) ， 因 而 他 们 写 的 评论 更 容易 从 文本 角度 被 检测 出 来 ， 
同时 没有 保留 用 户 的 行为 信息 ,也 为 Ott 等 人 2011 年 的 模型 应 用 于 真实 任务 造成 了 困难 。 

e Yelp 数据 集 : 这 是 第 一 个 兼 具 商业 性 与 参考 标准 (Ground Truth， 标 注 好 的 真实 数据 ) 的 
数据 集 。Mukherjee (2013b ) 是 第 一 个 分 析 由 商业 网 站 过 滤 后 的 Real-Life Fake 评论 工作 
的 人 。Yelp.com 是 一 个 商业 性 的 评论 收集 网 站 ， 从 2005 年 开始 致力 于 可 疑 或 伪造 评论 的 
过 滤 工 作 ， 其 算法 成 熟 、 准 确 率 高 ， 获 得 了 业界 研究 的 认可 (Weise，2011 ) 。 然 而 由 于 
商业 的 保密 性 ，Yelp.com 并 没有 公布 其 算法 细节 ， 但 公布 了 其 对 评论 过 滤 的 结果 。Weise 
Æ Ott 等 人 2011 年 收集 的 数据 集 上 使 用 了 监督 学 习 方 法 训练 好 的 模型 (只 利用 评论 的 文 
本 特征 ) ， 在 来 自 Yelp.com 的 真实 商业 性 的 数据 集 上 进行 了 测试 ， 得 到 的 准确 率 远 低 于 
Ott 等 人 2011 年 的 90% 的 准确 率 。 在 Yelp.com 数据 集 上 ，Weise 综合 利用 文本 特征 和 用 
户 行为 特征 来 检测 垃圾 评论 ， 获 得 了 较 好 的 实验 效果 。Mukherjee 年 人 (2013c) 也 做 了 
类 似 的 工作 ， 发 现在 Yelp.com 网 站 上 ， 为 了 避免 在 评论 中 重复 使 用 特殊 词汇 ， 垃 圾 评论 
发 布 者 都 试 着 以 相似 频率 使 用 在 真实 评论 中 出 现 的 词汇 。 但 同时 ， 垃 圾 评论 发 布 者 为 使 
其 评论 更 可 信 ， 过 度 伪 造 了 评论 。 基 于 Yelp.com 过 滤 算 法 的 业界 认可 度 和 多 年 开发 的 成 
熟 性 ， 该 数据 集 是 目前 在 商业 真实 性 与 参考 标准 (Ground Truth) 之 间 做 出 了 较 好 平衡 的 
一 个 数据 集 。 


10.10.5 垃圾 评论 检测 方法 


截至 到 目前 为 止 ， 研究 人 员 已 经 提供 了 一 些 方法 能 够 把 垃圾 评论 检测 问题 看 成 一 个 分 类 任务 ， 
其 研究 的 核心 问题 是 如 何 从 评论 网 站 上 可 观测 的 信息 中 抽取 出 有 效 的 特征 , 然后 输入 分 类 器 中 , 并 
构建 有 效 的 垃圾 评论 检测 器 。 

根据 可 观测 的 信息 类 型 以 及 特征 表示 方法 , 现 有 的 方法 可 以 分 为 三 种 : 第 一 种 是 基于 文本 内 容 
的 垃圾 评论 检测 方法 ; 第 二 种 是 基于 用 户 行为 的 垃圾 评论 检测 方法 ; 第 三 种 是 基于 表示 学 习 的 垃圾 
评论 检测 方法 。 

1. 基于 文本 内 容 的 垃圾 评论 检测 方法 

顾名思义 ， 基 于 文本 内 容 的 垃圾 评论 检测 方法 就 是 仅 从 文本 内 容 中 抽取 指示 垃圾 评论 的 特征 。 
其 中 ，ott 等 人 (201 D 将 心理 语言 学 线索 特征 应 用 到 了 垃圾 评论 检测 上 。Haris (2012) 探索 了 
写作 风格 方面 的 特征 。Feng SA (2012a) 调研 了 文体 学 方面 的 文本 特征 。Li SEA (20130 将 主 
体 模型 应 用 到 了 垃圾 评论 检测 中 。Li 等 人 (201400 又 进一步 研究 了 垃圾 评论 与 正常 评论 之 间 语 言 
使 用 上 的 差异 性 。Li 等 人 (2014a) 基于 Unigram (一 元 模型 ， 单 个 词 ) 与 Bigram (二 元 模型 ， 双 
词 ) 特征 进行 了 垃圾 评论 检测 中 单 类 学 习 的 相关 研究 。Kim 等 人 (2015) 提出 了 基于 框架 特征 的 
深度 语义 分 析 。 

2. 基于 用 户 行 为 的 垃圾 评论 检测 方法 

Lim A (20100 研究 了 垃圾 评论 者 打分 行为 方面 的 特征 。Jindal 等 人 (20100. 分 析 了 评论 
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系统 中 可 疑 性 非 正 常 的 评论 模式 。Feng 等 人 (2012b) 分 析 了 垃圾 评论 者 的 评论 行为 分 布 性 。Xie 等 
人 (2012) 研究 了 不 活跃 用 户 时 间 维 度 上 的 非 正常 行为 模式 。Mukherjee A (2012) 研究 了 和 群 组 
性 垃圾 评论 者 的 行为 特征 。Mukherjee 等 人 (2013a) 提出 了 一 种 原则 性 方法 来 对 评论 者 的 垃圾 攻 
击 性 进行 建 模 。Fei 等 人 (2013). 分 析 了 垃圾 评论 者 在 评论 爆炸 中 的 共 现 性 行为 。Mukherjee 等 人 
(2013c) 证 明了 在 垃圾 评论 检测 中 ， 评 论 者 的 行为 特征 比 文本 特征 更 有 效 。Liet SEA. (2015) 与 
KC 和 Mukherjee (2016) 分 析 了 垃圾 评论 活动 中 的 时 间 和 空间 动态 特征 。 

Wang A (2011) 利用 线 上 商铺 评论 分 析 了 评论 系统 中 的 网 络 图 特征 ， 并 应 用 图 模型 
(GraphModel) 来 解决 垃圾 评论 检测 问题 。 作 者 提出 了 三 个 度量 指标 : 店铺 的 可 信和 度 、 评 论 用 户 
的 可 信任 程度 、 评 论 的 诚实 度 。 在 此 基础 上 考虑 了 店铺 、 评 论 发 布 者 、 评 论 之 间 的 三 角 关 系 ， 友 代 
计算 三 个 指标 来 对 三 者 分 别 计 算 排 序 ， 而 不 是 简单 地 考虑 单个 评论 者 的 行为 特征 。Akoglu 等 人 
(2013) 在 图 特征 方面 做 了 类 似 的 研究 工作 ， 其 跳出 了 以 往 了 要 么 依赖 于 用 户 文 本 特征 ， 要么 依赖 
于 用 户 行 为 特征 来 检测 垃圾 评论 的 思路 ， 直 接 关 注 于 评论 者 与 产品 之 间作 用 的 网 络 图 方面 的 特征 ， 
提出 了 一 种 更 为 有 效 的 方法 : FRAUDEAGLE。 图 10-2 (Wang 等 ，2011) 展示 了 评论 系统 中 基本 
的 图 结构 ， 从 该 图 结构 中 ， 我 们 可 以 利用 图 算法 (HITS. PageRank, RandomWalk 等 ) 挖掘 分 析 
当前 评论 是 否 为 一 个 虚假 评论 ， 当 前 评论 者 是 否 为 一 个 垃圾 评论 者 。 


10-2 挖掘 用 户 行为 的 图 结构 (Wang 等 ，2011) 


在 此 基础 上 ，Mukherjee A (2013b0 将 文本 特征 和 行为 特征 结合 起 来 检测 垃圾 评论 ， 并 利 
用 Yelp.com 数据 集 证 明了 在 垃圾 评论 检测 任务 中 ， 特 别 是 在 真实 的 商业 性 数据 集 上 ， 行 为 特征 比 
文本 特征 更 有 效 。Rayana 和 Akoglu (2015) Æ Akoglu 等 人 (2013) 研究 的 基础 上 ， 第 一 次 综合 
利用 了 从 评论 文本 、 评 论 者 行为 、 评 论 系统 图 结构 中 挖掘 出 的 线索 特征 来 检测 垃圾 评论 ， 也 得 到 了 
相同 的 结论 。 总 体 来 说 ， 行 为 特征 比 文本 特征 更 有 效 ， 联 合 利用 文本 特征 、 行 为 特征 与 图 特征 是 目 
前 最 为 有 效 的 方法 。 
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3. 基于 表示 学 习 的 垃圾 评论 检测 万 法 


虽然 我 们 在 检测 垃圾 评论 方面 取得 了 很 大 的 进步 , 但 Wang 等 人 于 2016 年 发 现 其 中 依然 存在 
LADE: 第 一 , 研究 人 员 依 据 人 工 做 出 的 假设 及 专家 知识 来 提取 特征 或 对 图 结构 进行 分 析 ， 不 仅 
费时 费力 ， 可 靠 性 也 有 限 。 同 时 专家 知识 或 经 验 知识 是 有 限 的 ， 在 提取 特征 之 前 ,研究 人 员 做 了 大 
量 的 依据 专家 知识 的 统计 。 例 如 ，Li 等 人 (2015) 根据 大 众 点 评 的 数据 ， 统 计 分 析 得 到 了 这 样 的 
先 验 知识 : “垃圾 评论 行为 是 一 种 地 理 外 包 式 的 活动 "*“ 一 个 用 户 的 注册 地 就 是 他 平时 所 生活 的 地 
方 ”， 上 所 以 真实 用 尸 更 倾 问 于 评论 注册 地 附近 的 餐馆 ， 而 垃圾 用 户 的 餐馆 领域 的 评论 不 受 地理 条 件 
约束 。 当 我 们 对 Yelp 数据 集 统 计时 ， 发 现 了 相 迟 的 结论 ， 在 餐馆 领域 ， 垃 圾 评论 中 72% 来 日 于 餐 
馆 附近 的 地 方 ， 而 真实 评论 中 有 64% 来 目 于 餐馆 附近 的 地 方 ， 反 而 低 于 垃圾 评论 中 的 比例 。 可 见 
专家 知识 结论 的 可 靠 性 并 不 高 .同时 ,专家 知识 或 先 验 知识 也 是 有 限制 的 ,很 难 发 现 大 量 可 疑 线 索 。 
第 二 , 依赖 于 专家 知识 或 先 验 知识 的 方法 ,在 选取 特征 时 只 是 人 为 地 利用 了 系统 中 的 部 分 信息 。 例 
如 , 传统 的 行为 特征 都 是 围绕 着 一 个 评论 者 个 体 进行 统计 的 , 未 能 考虑 评论 者 在 系统 中 与 产品 及 其 
他 评论 者 的 交互 信息 , 基于 图 结构 提取 信息 表达 评论 的 方法 虽然 考虑 了 评论 者 、 产品 之 间 的 交互 信 
轧 , 但 是 只 考虑 了 同一 产品 评价 页 面 下 的 评论 者 之 间 的 交互 信息 ,没有 突破 评论 页 面 的 限制 .所 以 ， 
可 以 认为 ， 在 不 同 产品 间 ， 全 局 地 /比较 地 收集 评论 者 与 评论 者 、 评 论 者 与 产品 、 产 品 与 产品 间 的 
信息 具有 很 强 的 辅助 作用 。 因 此 ， 针 对 上 述 已 有 方法 的 不 足 ， 目 前 研究 的 关键 问题 主要 集中 于 : 我 
们 是 否 能 够 直接 从 数据 的 层面 ， 而 不 依赖 于 专家 经 验 , 目 动 学 习 得 到 用 户 的 行为 表示 以 及 所 评价 的 
商品 表示 ? 

为 了 解决 以 上 提出 的 过 去 工作 中 的 不 足 ，Wang 等 人 于 2016 年 提出 了 一 种 基于 表示 学 习 的 垃 
圾 评论 检测 方法 。 模 型 如 图 10-3 所 示 ， 该 方法 不 依赖 于 专家 知识 (或 者 说 极 大 地 减轻 了 对 于 专家 
知识 的 依赖 性 和 受 影 响 性 ) ， 利 用 多 重 关 系 全 局 信息 进行 联合 学 习 ， 同 时 考虑 了 用 户 和 产品 信息 ， 
并 且 用 隐 含 的 方式 表示 评论 ， 有 具有 很 好 的 鲁 棒 性 。 具 体 做 法 如 下 : 


Review 
Data i 


Review Representation 


I- Relations am 
10-3 ”基于 张 量 分 解 的 用 户 和 产品 表示 学 习 
e 为 了 尽 可 能 地 摆脱 对 于 专家 知识 的 依赖 , 并 尽 可 能 全 局 性 收集 人 信息、 捕捉 用 户 行为 特征 ， 
Wang 等 人 于 2016 年 在 未 做 出 任何 垃圾 嫌疑 倾向 性 假设 的 前 提 下 ,定义 了 两 类 基础 关系 : 
“两 个 实体 (评论 者 或 产品 ) 的 直接 关联 关系 (一 阶 关系 ) ”与 “两 个 实体 的 属性 间 关 
系 (二 阶 关系 ) ”。 在 此 基础 上 ， 他 们 分 别 从 时 间 、 空 间 、 社 交 等 维度 记录 了 两 个 实体 
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之 间 的 关联 信息 ， 共 衍生 出 11 种 具体 的 关系 (如 图 10-4 所 示 ) ， 并 用 一 个 张 量 记录 了 这 
11 种 关系 下 用 户 之 间 、 产 品 之 间 以 及 用 户 和 产品 之 间 的 关联 。 该 方法 突破 了 传统 的 评论 
者 必须 有 评论 交集 的 限制 或 者 页 面 内 部 的 局 部 限制 , 在 每 个 关系 中 , 将 任意 两 两 实体 ( 评 
论 者 和 评论 者 、 评 论 者 和 产品 、 产 品 和 产品 ) 进行 比较 ， 在 全 局 范围 内 衡量 一 个 评论 者 
或 产品 在 当前 关系 中 的 分 布 特点 。 

e 为 进一步 联合 运用 多 重 关系 信息 ， 并 用 隐 含 的 方式 表示 评论 (评论 者 表示 + 产品 表示 ) ， 
Wang 等 人 于 2016 年 采用 了 基于 上 面 提 到 的 11 种 关系 (非常 基础 且 不 易 被 垃圾 评论 者 改 
变 的 关系 ) 的 张 量 分 解 方法 (RESCAL ) ， 在 多 重 关系 之 间 应 用 全 局 性 的 损失 函数 来 更 充 
分 地 联合 学 习 评论 者 与 产品 各 自 的 信息 表示 。 正如 Nickel 等 人 2011 年 在 文章 中 所 述 的 那 
样 ， 在 全 局 性 损失 函数 的 学 习 中 ，“ 所 有 直接 或 间接 的 关系 对 于 实体 的 表达 都 有 影响 ”， 
也 就 是 说 ， 最 后 联合 学 习 到 的 实体 隐 含 表示 融合 了 全 局 的 关系 信息 。 这 些 隐 含 表示 不 能 
被 垃圾 评论 者 所 理解 ， 有 助 于 提升 检测 系统 的 鲁 棒 性 。 

e 为 了 能 够 区 分 米 自 同一 用 户 的 不 同 产 品评 论 ， 我 们 将 学 习 到 的 评论 者 与 产品 的 表示 拼接 
起 来 ， 作 为 评论 者 发 给 该 产品 的 评论 的 信息 表示 。 以 此 得 到 融合 全 局 性 信息 的 、 隐 含 式 
的 、 有 产品 区 分 度 的 评论 表示 。 最 后 ， 我 们 将 评论 的 表示 输入 分 类 器 中 ， 完 成 垃圾 评论 
的 检测 工作 。 


用 户 是 否 评价 了 某 产品 

用 户 给 某 产品 的 评分 

用 户 A 与 用 户 B 是 否 共同 评价 了 某 产 品 

用 户 A 与 用 户 B 共 同 评价 某 产品 的 时 间 差 
用 户 A 与 用 户 B 共 同 评价 某 产品 的 评分 差 
用 户 A 与 用 户 B 注 册 的 时 间 差 

用 户 A 产 品 M 与 用 户 B/ 产 品 N 的 平均 分 差 
用 户 A 与 用 户 B 的 朋友 数目 差 

用 户 Ay 产 品 M 与 用 户 B/ 产 品 N 所 在 地 是 否 相同 
产品 M 与 产品 N 拥 有 的 共同 评论 者 数量 
11 ”产品 M 与 产品 N 拥 有 的 评论 数量 差 
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10-4 基于 张 量 分 解 的 用 户 和 产品 表示 学 习 关 系列 表 
10.41 评论 的 质量 


在 这 一 节 中 ,我 们 将 讨论 评论 的 质量 问题 。 这 个 话题 与 垃圾 评论 检测 有 关 , 但 有 所 不 同 ， 因 为 
低 质 量 的 评论 可 能 不 是 垃圾 评论 或 虚假 评论 , 而 虚假 评论 可 能 不 会 被 读者 视 为 低 质 量 的 评论 ， 正如 
我 们 在 10.10 节 中 所 讨论 的 那样 ， 通 过 阅读 评论 很 难 发 现 假 评 论 。 出 于 这 个 原因 ， 如 果 冒 名 顶 蔡 者 
早期 撰写 评论 并 精心 制作 ， 假 评论 就 可 能 被 视 为 有 用 或 高 质量 的 评论 。 

这 项 任务 的 目的 是 确定 每 个 评论 的 质量 、 帮 助 性 、 有 用 性 或 实用 性 (Ghose 和 Ipeirotis, 2007; 
Kim 等 ，2006; Liu 等 ，2007; Zhang 和 Varadarajan，2006) 。 这 是 一 项 有 意义 的 任务 ， 因 为 在 向 
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用 户 展 示 评 论 时 ， 最 好 先 根据 质量 或 有 用 性 对 评论 进行 排名 ， 并 优先 展示 最 有 用 的 评论 。 事 实 上 ， 
许多 评论 聚合 或 托管 网 站 多 年 来 一 直 在 实践 这 一 点 。 他 们 通过 让 读者 为 每 个 评论 提供 有 益 的 反馈 来 
获得 每 个 评论 的 帮助 性 或 质量 分 数 。 例 如 ， 在 amazon.com 上 ， 读 者 可 以 通过 回答 每 个 评论 下 方 的 
问题 “评论 对 您 有 帮助 吗 ? ”来 表明 当前 评论 是 否 对 自己 有 帮助 。 然 后 在 每 次 审核 之 前 汇总 并 显示 
所 有 啊 应 的 反馈 结果 ,例如 “16 个 人 中 的 15 个 发 现 以 下 评论 有 用 ”。 尽 管 大 多 数 评论 托管 站 点 已 
经 提供 服务 , 但 是 自动 确定 每 个 评论 的 质量 仍然 是 有 很 用 的 , 因为 大 量 的 用 户 反 馈 可 能 需要 很 长 时 
间 才 能 积累 。 这 就 是 为 什么 许多 评论 很 少 或 没有 反馈 ， 对 于 新 评论 尤其 如 此 。 

下 面 我 们 将 评论 质量 作为 一 个 回归 问题 来 重点 讨论 一 下 , 当然 还 有 其 他 的 方法 来 衡量 评论 的 质 
量 问 题 ， 这 里 就 不 一 一 罗列 了 。 

评论 的 质量 通常 被 表述 为 一 个 回归 问题 。 学 习 的 模型 为 每 个 评论 分 配 一 个 质量 分 数 , 该 分 数 可 
用 于 评论 排名 或 评论 推荐 。 在 这 方面 的 研究 中 , 用 于 训练 和 测试 的 基础 事实 数据 通常 是 用 户 对 每 个 
评论 有 帮助 性 的 反馈 。 因 此 , 与 虚假 评论 检测 不 同 ， 这 里 的 训练 和 测试 数据 都 不 是 问题 。 研究 人 员 
在 模型 构建 中 使 用 了 许多 类 型 的 特性 。 

Kim A (2006) 利用 支持 向 量 机 回归 方法 解决 了 这 一 问题 ， 其 相关 特征 包括 : 

结构 特征 : 评论 长 度 、 句 子 数量 、 问 题 句 子 和 感叹 号 的 百分比 以 及 HTML 粗 体 标签 <b> 和 换行 
和 从 的 数量 <br>。 

词汇 特征 : 具有 tf-idf 权重 值 的 Unigram 〈 单 个 词 的 模型 或 一 元 模型 ) 和 Bigram 〈 双 词 的 模型 
或 二 元 模型 ) 。 

句法 特征 : 开放 类 《名 词 、 动 词 、 形 容 词 和 副词 ) 的 已 解析 标记 百分比 、 名 词 占 标记 百分比 、 
动词 占 标 记 百 分 比 、 第 一 人 称 共 思 动 词 占 标 记 百 分 比 、 形 容 词 或 副词 占 标记 百分比 。 

语义 特征 : 产品 方面 和 情感 词 。 

元 数据 特征 : 评论 评级 〈 星 级 数 ) 。 

Zhang 和 Varadarajan (2006) 将 这 个 问题 视 为 一 个 回归 问题 。 他 们 使 用 了 类 似 的 特征 ， 例 如 评 
论 长 度 、 评 论 评分 、 某 些 特 定 POS 标注 的 数量 、 情 感 词 、tf-idf 加 权 分 数 、wh-words、 产 品 方面 提 
到 的 内 容 、 与 产品 规格 的 比较 、 与 编辑 评论 的 比较 等 。 

与 上 述 方法 不 同 ，Liu 等 人 (20080 考虑 了 三 个 主要 因素 ， 即 评论 者 的 专业 性 、 评 论 的 及 时 性 
以 及 基于 POS 标注 的 评论 风格 ， 并 提出 了 一 个 非 线 性 回归 模型 来 整合 这 些 因 素 ， 这 项 工作 的 重点 
是 影评 。 

在 Ghose 和 Ipeirotis 的 文章 (2007 和 2010) 中 使 用 了 三 组 额外 的 特征 ， 即 评论 者 简介 (可 从 
审查 站 点 获得 ) 、 评 论 者 历史 记录 (捕获 他 /她 的 过 去 评论 的 帮助 性 ) 以 及 一 组 可 读 性 特征 ， 即 可 
读 性 研究 中 的 拼写 错误 和 可 读 性 指数 。 为 了 实现 更 好 的 研究 ， 作 者 尝试 了 回归 和 二 元 分 类 。 

Lu 等 人 (2010〉 从 另 一 个 角度 来 看 待 这 个 问题 。 他 们 研究 了 评论 者 的 社交 背景 ， 以 便 发 现 这 
些 社交 背景 信息 如 何 有 助 于 提高 基于 文本 的 评论 质量 预测 的 准确 性 。 他们 认为 , 社交 背景 可 以 揭示 
关于 评论 者 业务 素养 方面 的 大 量 信息 , 而 这 些 信息 反 过 来 又 会 影响 他 们 撰写 评论 的 质量 ,具体 来 说 ， 
他 们 的 方法 基于 以 下 假设 。 


e 作者 一 致 性 假设 : 来 自 同一 作者 的 评论 具有 相似 的 质量 。 
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e ”信任 一 致 性 假设 : 从 评论 人 到 评论 人 15 的 链接 是 一 种 显 性 或 隐 性 的 信任 声明 。 只 有 当 评 
论 人 5 的 个 人 水 平 至 少 与 评论 人 i 一样 高 时 ， 评 论 人 i 才 信 任 评论 人 rr,。 

e 共 引 一 致 性 假设 : 人 们 在 信任 他 人 的 方式 上 是 一 致 的 。 因 此 ， 如 果 两 个 评论 者 让 和 T5 被 同 
一 个 第 三 评论 者 r; 所 信任 ， 那 么 他 们 的 水 平 应 该 是 相似 的 。 

e 链接 一 致 性 假设 : 如 果 两 个 人 在 社交 网 络 中 有 联系 (ni 信任 72，, Anin, 或 两 者 兼 有 )， 
那么 他 们 的 评论 质量 应 该 是 相似 的 。 


Lu 等 人 将 这 些 假设 作为 正则 化 约束 加 入 基于 文本 的 线性 回归 模型 中 ， 以 解决 评论 质量 预测 问 
题 。 在 实验 中 ， 作 者 使 用 了 来 自 社 区 评论 网 站 Ciao (www.ciao.co.uk) 上 的 数据 。 在 Ciao 中 ， 人 
们 不 仅 为 产品 和 服务 写 评 论 ， 还 会 对 别人 写 的 评论 进行 评分 。 此 外 ， 如 果 人 们 发 现 社区 里 这 些 成 员 
的 评论 总 是 有 意义 且 有 帮助 ， 他 们 可 以 回 其 信任 成 员 网 络 或 “信任 圈 ” 添 加 相关 成 员 。 显 然 ， 这 种 
技术 不 适用 于 没有 信任 社交 网 络 的 网 站 。 


10.12 ”利用 TensorFlow 进行 中 文 情感 分 析 实 现 
这 里 我 们 使 用 谭 松 波 的 酒店 评论 语 料 进行 酒店 正面 和 负面 评论 的 情感 分 析 。 
10.12.1 训练 语 料 


训练 样本 分 别 放置 在 两 个 文件 夹 里 : pos 和 neg， 每 个 文件 夹 里 有 2000 个 TXT 文件 ， 每 个 文 
件 内 有 一 段 评 语 ， 共 有 4000 个 训练 样本 ， 这 样 大 小 的 样本 数据 在 自然 语言 处 理 NLP) 中 属于 非 
常 迷你 类 型 的 。 


10.12.2 43 13807] 23 33] 


首先 我 们 去 掉 每 个 样本 的 标点 符号 ,然后 用 Jieba (结巴 ， 中文 分 词 的 工具 包 之 一 ) 分 词 ，Jieba 
分 词 返回 一 个 生成 器 , 没 法 直接 进行 切 分 词 (Tokenize), 所 以 我 们 将 分 词 结果 转换 成 一 个 列表 (List)， 
并 将 它 索 引 化 ， 这 样 每 一 例 评价 的 文本 变 成 一 段 索 引 数 字 ， 对 应 着 预 训练 词 向 量 模型 中 的 词 。 


# 进行 分 词 和 切 分 词 (Tokenize) 
# train tokens 是 一 个 长 长 的 列表 ， 其 中 含有 4000 个 小 列表 ， 对 应 每 一 条 评价 
train tokens - [] 
for text in train texts orig: 
# 去 掉 标 点 
text = re.sub("[Ns*N. V! MV. ,$$^* (+\"\']+| [4— 5 o? , "QE Y$...8* () ]+" "", text) 
* 结巴 分 词 
cut = jieba.cut(text) 
* 结巴 分 词 的 输出 结果 为 一 个 生成 器 
# 把 生成 器 转换 为 列表 
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cut list — [ i for i in cut ] 
for i, word in enumerate(cut list): 
try: 
# 将 词 转换 为 索引 Gindex) 
cut list[i] = cn model.vocab[word].index 
except KeyError: 
# 如 果 词 不 在 字典 中 ， 就 输出 0 
cut list[i] = 0 


train tokens.append(cut list) 


10.42.3 索引 长 度 标 准 化 


因为 每 段 评语 的 长 度 是 不 一 样 的 , 我 们 如 果 单 纯 取 最 长 的 一 个 评语 , 并 把 其 他 评语 填充 成 同样 
的 长 度 ， 就 会 十 分 浪费 计算 资源 ， 所 以 我 们 取 一 个 折 中 的 长 度 。 


# 获得 所 有 短语 (tokens) 的 长 度 

num tokens = [ len(tokens) for tokens in train tokens | 

num tokens = np.array(num tokens) 

* 取 tokens 平均 值 并 加 上 两 个 tokens 的 标准 差 

# 假设 tokens 长 度 的 分 布 为 正 态 分 布 ， 则 max tokens 这 个 值 可 以 涵盖 95% 左 右 的 样本 
max tokens = np.mean (num tokens) + 2 * np.std(num tokens) 

max tokens = int(max tokens) 


max tokens 


10.12.4 REJNA 


我 们 定义 一 个 函数 ， 用 来 把 索引 转换 成 可 阅读 的 文本 ， 这 对 于 程序 调试 (Debug) 很 重要 。 
# 用 来 将 短语 (tokens) 转换 为 文本 


def reverse tokens (tokens): 
text - '' 
for i in tokens: 
if i !- 0: 
text = text + cn model.index2word[i] 
else: 
text = text + ' ' 


return text 


reverse — reverse tokens(train tokens[0]) 
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10.12.5 准备 词 向 量 窍 阵 


现在 我 们 来 为 模型 准备 词 向 量 和 矩阵 (Embedding Matrix) 。 根 据 Keras 的 要 求 ， 我 们 需要 准备 
一 个 维度 为 qumwords,embeddingdim) 的 矩阵 , numwords 代表 我 们 使 用 的 词汇 的 数量 ,emdeddingdim 
在 我 们 使 用 的 预 训练 词 癌 量 模型 中 是 300， 每 一 个 词汇 都 用 一 个 长 度 为 300 的 向 量 表 示 。 

注意 ， 我 们 只 选择 使 用 前 50000 个 使 用 频率 最 高 的 词 ， 在 这 个 预 训练 词 回 量 模型 中 ， 一 共有 
2600000 个 词汇 ， 全 部 使 用 在 分 类 问题 上 会 很 浪费 计算 资源 ， 因 为 我 们 的 训练 样本 很 小 ， 一 共 只 
有 4000 个， 如 果 有 100 000 个 、200 000 个 甚至 更 多 的 训练 样本 ， 在 分 类 问题 上 可 以 考虑 减少 使 用 
的 词汇 量 。 


10.12.6 ”填充 和 截 短 


我 们 把 文本 转换 为 短语 索引 之 后 ,每 一 串 索引 的 长 度 并 不 相等 ， 为 了 方便 模型 的 训练 ， 我 们 需 
要 把 索引 的 长 度 标 准 化 。 前 面 我 们 选择 了 236 这 个 可 以 涵盖 95% 训 练 样本 的 长 度 ， 接 下 来 进行 填 
J (Padding) 和 截 短 〈Truncating) ， 我 们 一 般 采 用 pre' 的 方法 ， 这 会 在 文本 索引 的 前 面 填 充 0， 
根据 一 些 研究 资料 中 的 实践 ， 如 果 在 文本 索引 后 面 填充 0， 就 会 对 模型 造成 一 些 不 良 影响。 


10.12.7 构建 模型 


在 这 个 教程 中 尝试 了 几 种 神经 网 络 结构 ， 因 为 训练 样本 比较 少 ， 所 以 我 们 可 以 尽情 尝试 ,训练 
过 程 等 待 时 间 并 不 长 。 


€ GRU: 如 果 使 用 GRU， 测 试 样本 可 以 达到 87% 的 准确 率 ， 但 作者 测试 自己 的 文本 内 容 时 
I, GRU 最 后 一 层 激活 函数 的 输出 都 在 0.5 左右 ， 说 明 模型 的 判断 不 是 很 明确 ， 信 心 
比较 低 ， 而 且 经 过 测试 发 现 模型 对 于 否定 多 的 判断 有 时 会 失误 ， 我 们 期 望 对 于 负面 样本 
输出 接近 0， 正 面 样本 接近 1， 而 不 是 都 徘徊 于 0.5 之 间 。 

€ BiLSTM: 测试 7 LSTM 和 BiLSTM， 发 现 BiLSTM 的 表现 最 好 ，LSTM 的 表现 略 好 于 
GRU， 这 可 能 是 因为 BiLSTM 对 于 比较 长 的 句子 结构 有 更 好 的 记忆 ， 有 兴趣 的 朋友 可 以 
深入 研究 一 下 。 

回 量 化 之 后 ， 第 一 层 我 们 用 BiLSTM 返回 序列 〈Sequence) ， 然 后 第 二 层 16 个 单元 的 LSTM 

不 返回 序列 (Sequence) ， 只 返回 最 终结 果 ,， 最 后 是 一 个 全 链接 层 , 用 sigmoid 激活 函数 输出 结果 。 
model.add(Dense(1, activation-'sigmoid')) 


+ 我 们 使 用 adam 以 0.001 的 学 习 率 (Learning Rate) 进行 优化 


optimizer = Adam(lr-1e-3) 


# 定义 early stoping, WẸ 3 ^Ñ epoch (3 次 训练 ) 内 验证 损失 (Validation Loss) 没有 改善 ， 
就 停止 训练 


earlystopping = EarlyStopping(monitor-'val loss', patience-3, verbose-1) 


第 10 章 情感 分 析 | 307 


# 自动 降低 学 习 率 (Learning Rate) 
lr reduction = ReduceLROnPlateau(monitor-'val loss', 
factor-0.1, min lr-1e-5, patience-0, 


verbose-1l) 


# 开始 训练 

model.fit(X train, y train, 
validation split-0.1, 
epochs-20, 
batch size-128, 
callbacks-callbacks) 


10.12.8 结论 


首先 对 测试 样本 进行 预测 ， 得 到 了 还 算 满意 的 准确 度 。 

之 后 定义 一 个 预测 函数 来 预测 输入 的 文本 的 极 性 (正面 ,负面 或 中 性 ) ， 可 见 模型 对 于 否定 句 
和 一 些 简单 的 逻辑 结构 都 可 以 进行 准确 的 判断 。 

def predict sentiment (text): 


print (text) 


# 去 标点 

text - re.sub("[Ns*N. NA Str AT Ht "ert) 
# 分 词 

cut = jieba.cut (text) 

cut list — [ i for i in cut ] 


# tokenize 
for i, word in enumerate (cut list): 
try: 
cut list[i] = cn model .vocab [word] .index 
except KeyError: 
cut list[i] = 0 
# padding 
tokens pad = pad sequences ([cut_list], maxlen=max tokens, 
padding='pre', truncating-'pre') 
# 预测 
result = model.predict(x-tokens pad) 
coef = result[0][0] 
if coef »- 0.5: 
print (' 是 一 例 正面 评价 ','output=%.2f"'%coef) 
elser 


print ('Æ— pami ', 'output=%.2f'%coef) 
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代码 运行 后 的 输出 结果 如 下 : 


酒店 设施 不 是 新 的 ， 服 务 态度 很 不 好 
是 一 例 负面 评价 output=0.14 

酒店 卫生 条 件 非 常 不 好 

是 一 例 负面 评价 output=0.09 
床铺 非常 舒适 

是 一 例 正面 评价 output=0.76 
AIRE, MARRA 

是 一 例 负 面 评价 output-0.17 
房间 很 凉爽 ， 空 调 冷 气 很 足 

是 一 例 正面 评价 output=0.66 
酒店 环境 不 好 ， 住 宿 体 验 很 不 好 

是 一 例 负面 评价 output=0.06 
房间 隔音 不 到 位 

是 一 例 负面 评价 output=0.17 
晚上 回来 发 现 没 有 打扫 卫生 

是 一 例 负面 评价 output-0.25 
因为 过 节 ， 所 以 要 我 临时 加 钱 ， 比 团购 的 价格 贵 
是 一 例 负面 评价 output-0.06 


经 过 查看 ， 发 现 被 错误 分 类 的 文本 的 含义 大 多 比较 含糊 ， 即 使 是 人 类 也 不 容易 判断 其 极 性 ， 如 
下 面 索引 (index) 为 101 的 这 个 句子 ， 好 像 没有 一 点 满意 的 成 分 ， 但 这 个 评价 在 训练 样本 中 被 标 
注 成 正面 评价 ， 而 我 们 的 模型 做 出 的 负面 评价 的 预测 似乎 是 合理 的 。 

# 我 们 来 找 出 错误 分 类 的 样本 看 看 

idx-101 

print(reverse tokens(X test[idx])) 

print (' 预 测 的 分 类 ',y pred[idx]) 

print (' 实 际 的 分 类 ',y actual [idx]) 


代码 运行 后 的 输出 结果 如 下 : 


由 于 2007 年 有 一 些 新 问题 可 能 还 没 来 得 及 解决 我 因为 工作 需要 经 常 要 住 那里 所 以 慎重 的 提出 以 下 : 1 后 
的 淋浴 喷头 的 位 置 都 太 高 我 换 了 房间 还 是 一 样 很 不 好 用 2 后 的 一 些 管 理 和 服务 还 很 不 到 位 尤其 是 前 台 入 住 
和 时 代 效 率 太 低 每 次 都 超过 10 分 钟 好 像 不 符合 宾馆 的 要 求 

预测 的 分 类 0 


实际 的 分 类 1.0 
10.13 总结 


本 章 首 先 介 绍 了 情感 分 析 的 应 用 、 情感 问题 的 界定 及 情感 文档 的 分 类 ; 其 次 对 于 句子 意见 的 主 
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观 性 、 基 于 方面 (Aspect) 的 情感 分 析 、 情 感 词 典 的 生成 、 比 较 意 见 分 析 及 意见 搜索 做 了 介绍 ; HE 
着 重点 阐述 了 垃圾 评论 的 各 种 情况 和 评论 质量 的 问题 ; 最 后 利用 TensorFlow 对 于 酒店 评论 样本 数 
据 进行 了 情感 分 析 建 横 比 较 ， 并 得 出 了 相关 结论 。 

在 问题 解读 部 分 ,我 们 通过 Apple iPhone 8 Plus 手机 评论 的 例子 引出 了 关于 意见 定义 的 4 个 组 
成 部 分 ， 涉 及 两 个 著名 的 词汇 : 实体 (Entity) 和 方面 (Aspect) ， 并 对 这 个 专 有 名 称 进行 了 相关 

接着 ,在 垃圾 评论 检测 部 分 我 们 重点 做 了 详细 解读 ， 从 垃圾 评论 的 类 型 、 垃 圾 评论 常见 数据 
集 到 垃圾 评论 检测 的 方法 (基于 文本 内 容 的 垃圾 评论 检测 方法 、 基 于 用 户 行 为 的 垃圾 评论 检测 方法 、 
基于 表示 学 习 的 垃圾 评论 检测 方法 ) 等 。 在 评论 质量 问题 部 分 , 我 们 将 评论 的 质量 表述 为 一 个 回归 
问题 ， 并 详细 探讨 了 从 一 个 回归 问题 的 角度 解决 评论 质量 问题 的 相关 方法 。 

最 后 , 我 们 给 出 了 一 个 基于 中 文 酒店 评论 数据 集 的 情感 分 析 案 例 ， 从 前 期 数据 处 理 到 模型 构建 
及 结果 分 析 ， 我 们 都 做 了 相关 解读 。 

下 一 章 ， 我 们 将 要 讲述 机 器 翻译 的 内 容 ， 这 也 是 自然 语言 处 理 (NLP) 领域 的 一 个 热门 课题 。 


DICES 


根据 维基 百科 给 出 的 定义 , 机 器 翻译 CMachine Translation; MT) 是 计算 语言 学 的 一 个 子 领 域 ， 
主要 研究 利用 软件 将 文本 或 语音 从 一 种 语言 翻译 到 另 一 种 语言 。 被 翻译 的 语言 称 为 源 语 言 《Source 
Language) ， 翻 译 得 到 的 语言 称 为 目标 语言 (Target Language) 。 简 单 地 理解 ， 机 器 翻译 的 目标 就 
是 建立 起 高 效 的 自动 翻译 方法 、 模 型 和 信息 系统 , EAR AR ei L BRE A s 最终 得 以 实现 任何 时 刻 、 
任何 地 点 和 任何 语言 的 自动 翻译 功能 ， 使 得 人 类 可 以 无 障碍 地 上 自由 交流 。 

在 日 常生 活 中 ,我 们 习惯 感知 (包括 昕 到 、 看 到 和 读 到 ) 自己 母语 内 的 声音 和 文字 。 大 多 数 人 
只 能 感知 自身 的 母语 ， 这 对 于 我 们 扩展 自身 母语 体系 之 外 的 社交 、 学 习 、 工 作 来 说 ， 机 器 翻译 就 会 
发 挥 其 良好 的 贴身 服务 功能 ,在 生活 和 工作 中 扮演 着 重要 的 角色 。 从 理论 上 来 讲 ， 机 器 翻译 会 涉及 
计算 语言 学 、 语 言 学 、 机 器 学 习 和 认 知 科学 等 多 个 学 科 ， 显 然 是 一 个 比较 典型 的 多 学 科 交 叉 研 究 课 
题 ， 所 以 对 这 项 研究 的 推进 工作 意义 重大 ， 不 但 有 助 于 提高 相关 学 科 的 发 展 水 平 ， 揭 示人 脑 完 成 路 
语言 思考 的 奥秘 ， 而 且 有 利于 目 然 语 言 处 理 技 术 的 快速 发 展 。 从 应 用 上 来 看 ， 无 论 是 普通 个 人 、 企 
业 还 是 政府 机 构 ， 均 迫切 需要 机 器 翻译 这 个 强大 的 工具 ， 尤 其 是 在 “互联 网 +”“ 地 球 村 ”的 新 时 
期 , 我 们 正面 临 多 着 语言 多 领域 呈现 的 大 数据 形成 的 常态 化 问题 , 机 器 翻译 已 成 为 众多 应 用 领域 变 
革 的 核心 技术 之 一 。 

机 器 翻译 利用 语言 学 原理 及 机 器 目 动 识别 语法 ,调用 存储 的 语料库 自动 进行 对 应 翻译 , 但 由 于 
语法 、 词 法 、 句 法 发 生变 动 或 不 规则 性 ， 输 出 的 结果 也 会 存在 一 定 的 错误 率 。 在 基本 操作 层面 上 ， 
机 器 翻译 为 了 目标 语言 中 的 词 而 对 源 语言 中 的 词 进行 简单 蔡 换 , 这 种 方法 通 前 不 会 产生 良好 的 文本 
翻译 效果 , 因为 需要 识别 源 语言 中 整个 短语 及 其 在 目标 语言 中 最 接近 的 对 应 短语 或 词 。 而 利用 语 料 
库 统 计 和 神经 网 络 技 术 就 能 够 解决 这 个 问题 ,可 以 产生 更 好 的 翻译 : 处 理 语言 类 型 学 习 的 差异 、 习 
惯 语法 的 翻译 和 异常 情况 的 隔离 等 。 

神经 网 络 机 器 翻译 (Neural Machine Translation, NMT) 是 一 种 机 器 翻译 方法 ， 它 使 用 大 型 人 
工 神经 网 络 来 预测 词 序列 的 可 能 性 , 通常 在 单个 集成 模型 中 对 整个 句子 进行 建 模 。 深度 神经 网 络 机 
器 翻译 是 神经 网 络 机 器 翻译 的 延伸 ,目前 比较 流行 。 两 者 都 使 用 大 型 神经 网 络 ， 区 别 在 于 深度 神经 
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网 络 机 器 翻译 处 理 多 个 神经 网 络 层 而 不 是 一 个 神经 网 络 。 一 般 情况 下 , 源 语言 的 句子 长 度 与 目标 语 
言 对 应 的 句子 长 度 是 不 同 的 , 而 且 在 处 理 过 程 中 会 涉及 多 对 复杂 的 映射 任务 ,这 融 需 要 我 们 采用 序 
列 到 序列 学 习 技 术 , 序列 到 序列 可 以 处 理 任意 长 度 序 列 映射 到 男 一 个 任意 长 度 序列 的 复杂 情况 , 常 
见 的 示例 包括 神经 网 络 机 器 翻译 NMT) 和 创建 聊天 机 器 人 。 我 们 可 以 利用 NMT 将 句子 从 一 种 语 
E ( 源 语言 翻译 成 男 一 种 语言 (目标 语言 〉》， 舍 歌 翻 译 就 是 NMT 系统 应 用 的 一 个 例子 。 

在 深入 研究 NMT 之 前 ， 我 们 先 简要 介绍 一 下 统计 机 器 翻译 (Statistical Machine Translation, 
SMT) 方法 ， 这 些 方法 在 NMT 之 前 是 最 先进 的 系统 ; 接 下 来 介绍 构建 NMT 所 需要 的 相关 步 又 ; 
最 后 学 习 如 何 实 施 一 个 真正 的 NMT 系统 ， 逐 步 将 德语 翻译 成 英语 。 


11.1 机 器 翻译 简介 


与 其 他 沟通 方法 (如 手势 ) 相 比 ， 人 类 通常 通过 语言 相互 沟通 。 目 前 ,全 世界 正在 使 用 的 语言 
超过 5,000 种 。 虽 然 将 语言 学 习 到 本 地 人 员 能 够 轻松 理解 的 水 平 是 一 项 难以 完成 的 任务 , 但 是 通过 
语言 沟通 对 于 分 享 知识 、 社 交 和 扩展 视野 来 说 至 关 重 要 。 因 此 ， 语 言 就 成 了 我 们 与 世界 不 同 地 区 进 
行 交流 的 一 个 潜在 障碍 。 这 时 ， 机 器 翻译 (MT) 就 有 了 用 武之 地 ， 因 为 MT 系统 允许 用 户 用 自己 
的 语言 输入 句子 〈 称 为 源 语言 ) 并 输出 所 需 目标 语言 的 句子 。 

W; = {wy W2, Ws,» WL} 
XE, W,eSs. 
源 语言 将 被 翻译 成 句子 Wrz， 其 中 TT 是 目标 语言 ， 由 以 下 内 容 给 出 : 
Wr = (w',, w'2,w',, ,w'uj 


xE, WET. 
Wr 通过 MT 系统 获得 ， 相 关 输 出 如 下 : 


p(Wr | Ws)YWr € W 7 
这 里 ，W'z 是 算法 找 出 的 可 能 的 翻译 候选 项 池 。 此 外 ， 候 选项 池 中 的 最 佳 候 选项 可 通过 以 下 等 
式 给 出 : 
Wr®s: = argmax(wew) (Pp(Wr | Ws); 8) 
这 里 ，9 是 模型 参数 。 在 训练 期 间 ， 我 们 通过 最 大 化 一 组 源 语言 所 对 应 的 已 知 目标 语言 的 翻译 
到 目前 为 止 , 我 们 讨论 了 有 意 要 解决 的 语言 翻译 问题 的 正式 设置 。 接 下 来 , 我 们 将 对 机 器 翻译 
的 历史 沿革 进行 梳理 ， 以 了 解 人 们 在 早期 如 何尝 试 解决 这 个 问题 。 
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11.2 基于 规则 的 翻译 


机 器 翻译 (MT) 最初 涉 及 的 是 基于 规则 的 系统 , 然后 出 现 了 更 具 统 计 学 意义 的 机 器 翻译 系统 。 
统计 机 器 翻译 (SMT) 是 使 用 各 种 语言 统计 度量 来 生成 另 一 种 语言 的 翻译 。 最 后 是 神经 网 络 机 器 
翻译 CNMTO 的 时 代 , 与 其 他 方法 相 比 , NMT 目前 在 大 多 数 机 器 学 习 任 务 中 保持 着 最 先进 的 性 能 。 

基于 规则 的 机 器 翻译 CRule-Based Machine Translation RBMT; 机 器 翻译 的 “经 典 方法 ”) 
是 基于 源 语言 和 目标 语言 的 语言 信息 的 机 器 翻译 系统 ， 基 本 上 从 ( 单 语 、 双 语 或 多 语言 ) 词典 及 包 
含 的 主要 语义 、 形 态 和 人 句法 的 语法 中 检索 每 种 语言 的 规律 。 在 输入 句子 (在 某 种 源 语言 中 ) 的 基础 
E, RBMT 系统 就 基于 对 有 具体 翻译 任务 中 涉及 的 源 语言 和 目标 语言 的 形态 学 、 句 法 和 语义 分 析 ， 
生成 相应 输出 句子 〈 在 一 些 目标 语言 中 ) 。 

基于 规则 的 机 器 翻译 (RBMT) 类 型 包括 基于 转换 的 机 器 翻译 、 基 于 语 际 的 机 器 翻译 和 基于 字 
典 的 机 器 翻译 。RBMT 主要 用 于 创建 词典 和 语法 程序 。 与 其 他 方法 不 同 ，RBMT 使 用 源 语 言 和 日 


语言 分 析 器 、 目 标语 言 的 生成 器 及 实际 翻译 的 转换 词典 来 连接 输入 句子 的 结构 和 输出 句子 的 结构 。 
RBMT 最 大 的 缺点 是 必须 明确 所 有 内 容 ， 为 了 应 对 它 ， 必 须 将 拼写 变异 和 错误 得 入 作为 源 语 言 分 
析 器 的 一 部 分 ， 并 且 必 须 为 所 有 歧义 实例 编写 词法 选择 规则 。 


11.2.1 基于 转换 的 机 怖 翻译 


基于 转换 的 机 器 翻译 类 似 于 语 际 机 器 翻译 ,因为 它 从 模拟 原始 句子 含义 的 中 间 表 示 中 创建 翻译 。 
如 图 11-1 Przs, Bernard Vauquois 金字塔 显示 了 有 具有 中 间 代 表 性 的 比较 深度 ,在 峰值 处 有 基于 语 际 
的 机 器 翻译 ， 然 后 是 基于 转换 的 机 器 翻译 ， 最 下 面 是 直接 翻译 。 与 基于 语 际 机 器 翻译 不 同 的 是 ， 其 
部 分 取决 于 翻译 中 涉及 的 语言 对 情况 。 


interlingua 


direct translation 


source target 
text text 


11-1 Bernard Vauquois 的 翻译 金字 塔 


与 更 简单 的 机 器 直接 翻译 模型 相 比 , 基于 转换 的 机 器 翻译 将 翻译 分 为 三 个 步 又 : 分 析 源 语言 文 
本 以 确定 其 语法 结构 ， 将 结果 结构 转换 到 适合 在 目标 语言 中 生成 文本 的 结构 ， 最 后 生成 这 个 文本 。 
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因此 ， 基 于 转换 的 机 器 翻译 系统 能 够 很 好 地 理解 源 语言 和 目标 语言 的 知识 体系 ， 下 面 从 设计 、 操 作 
和 转换 分 析 的 角度 对 其 进行 解读 。 

1. 设计 ( Design ) 层面 

基于 转换 和 基于 语 际 的 机 器 翻译 具有 相同 的 思路 : 为 了 进行 翻译 ， 必 须 具 有 获取 原始 句子 “ 含 
义 ” 以 便 生 成 正确 翻译 的 中 间 表 示 。 在 基于 语 际 的 机 器 翻译 中 ， 这 种 中 间 表 示 一 定 是 独立 于 所 讨论 
的 语言 的 ， 而 在 基于 转换 的 机 器 翻译 中 ， 对 所 涉及 的 语言 对 有 一 定 的 依赖 性 。 

基于 转换 的 机 器 翻译 系统 的 工作 方式 差异 很 大 , 但 一 般 来 说 都 遵循 相同 的 模式 : 应 用 了 一 组 语 
言 规 则 ， 且 这 些 规 则 被 定义 为 源 语言 结构 与 目标 语言 结构 之 间 的 对 应 关系 。 第 一 阶段 涉及 分 析 输 入 
文本 的 形态 和 语法 (有 时 是 语义 ) 以 创建 内 部 表示 ， 然 后 使 用 双语 词典 和 语法 规则 从 该 表示 生成 翻 
译 。 使 用 这 种 翻译 策略 可 以 获得 高 质量 的 翻译 ， 准 确 度 达 到 90% 。 


2. 操作 ( Operation ) 层面 


在 基于 规则 的 机 器 翻译 系统 中 , 首先 在 形态 和 句法 上 分 析 原 始 文本 以 便 获 得 句法 表示 ; 然后 可 
以 将 这 种 表示 细 化 到 更 抽象 的 层次 ， 将 重点 放 在 与 翻译 相关 的 部 分 ， 而 和 暂时 忽略 其 他 类 型 的 信息 ; 
接着 转换 过 程 将 这 个 最 终 表 示 (仍然 是 原始 语言 ) 转换 为 目标 语言 中 相同 抽象 级 别 的 表示 。 这 两 种 
表示 被 称 为 “中 间 ” 表 示 。 从 目标 语言 表示 开始 ， 以 相反 的 方式 应 用 各 阶段 。 

3. 分 析 和 转换 ( Analysis and Transformation ) 层面 


在 获得 最 终结 果 之 前 ,可 以 使 用 各 种 分 析 和 转换 方法 。 统计 方法 可 以 强化 产生 的 混合 系统 ， 选 
择 的 方法 和 重点 部 分 在 很 大 程度 上 取决 于 系统 的 设计 。 尽 管 如 此 , 大 多 数 系统 至 少 包 括 以 下 几 个 阶 
B: 


e 形态 分 析 。 输入 文本 的 表层 形态 被 分 类 为 词性 ( 例如， 名词 、 动 词 等 ) 和 子 类 别 (数字 、 
性 别 、 时 态 等 ) 。 每 个 表层 形态 的 所 有 可 能 的 “分 析 ” 通 常 在 此 阶段 输出 ， 连 同 该 词 的 
词根 (Lemma) 。 

e 词汇 分 类 。 在 任何 给 定 的 文本 中 ， 一 些 词 可 能 具有 多 个 含义 ， 导 致 分 析出 现 歧义 问题 。 
词汇 分 类 会 查看 这 类 词 的 上 下 文 ， 以 尝试 在 输入 的 上 下 文中 确定 其 正确 的 含义 。 这 可 能 
涉及 词性 标注 和 词义 消 歧 。 

@ 词汇 转换 。 这 里 基本 上 是 字典 翻译 ， 在 双语 词典 中 查找 源 语言 的 词根 (可 能 是 有 意义 的 
言 息 ) 并 选择 翻译 。 

e 结构 转换 。 虽 然 前 面 的 阶段 涉及 词 ， 但 这 个 阶段 涉及 较 大 的 组 成 部 分 ， 例 如 短语 和 信息 
块 ( 即 一 种 信息 片段 ， 用 于 许多 多 媒体 格式 ， 如 PNG、IFF、MP3、AVI 等 ) 。 此 阶段 的 
典型 特征 包括 性 别 和 数字 的 一 致 性 ， 以 及 词 或 短语 的 重新 排序 。 

e 形态 生成 。 从 结构 转换 阶段 的 输出 ， 生 成 目标 语言 表层 形态 。 


4. 转换 的 类 型 


基于 转换 的 机 器 翻译 系统 的 主要 特征 之 一 是 将 原始 语言 中 文本 的 中 间 表 示 “ 转 换 ” 到 目标 语言 
中 文本 的 中 间 表 示 。 这 可 以 在 语言 分 析 的 两 个 层次 之 一 或 者 介 于 两 者 之 间 进 行 ， 具体 层次 如 下 : 
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e 表层 转换 (或 句法 ) 。 该 层次 是 在 源 语言 和 目标 语言 之 间 转 换 “ 句 法 结构 ”。 它 适用 于 
同一 系列 或 相同 类 型 的 语言 ， 如 西班牙 语 、 加 泰 罗 尼 亚 语 、 法 语 、 意 大 利 语 等 罗曼 语 语 
言 (也 称 新 拉丁 语言 ) 。 

e 深度 转换 (或 语义 ) 。 该 层次 用 于 更 远 距离 相关 语言 之 间 进 行 的 翻译 ， 如 西班牙 语 、 英 
语 或 西班牙 语 、 巴 斯 克 语 等 。 


11.2.2” 语 际 机 器 翻译 


语 际 (有 时 也 称 中 间或 桥接 ) 机 器 翻译 (Interlingual machine translation). 是 机 器 翻译 的 经 典 方 
法 之 一 。 该 方法 是 将 源 语言 《要 翻译 的 文本 ) 转换 为 桥接 语言 《独立 于 语言 的 抽象 表示 ) ， 然 后 从 
桥接 语言 生成 目标 语言 。 图 11-2 给 出 了 桥接 语言 的 翻译 过 程 。 

在 基于 规则 的 机 器 翻译 范式 中 ， 语 际 方 法 是 直接 方法 和 转换 方法 的 蔡 代 。 在 直接 方法 中 ， 词 被 
直接 翻译 而 不 经 过 附加 表示 步骤 。 在 转换 方法 中 ， 源 语言 被 转换 成 抽象 的 、 较 少 特定 语言 的 表示 。 

语 际 机 器 翻译 的 优点 在 于 ,为 了 将 源 语言 与 目标 语言 关联 起 来 ,所 需 的 组 件 更 少 , 添加 新 语言 
所 需 的 组 件 也 更 少 ; 它 广 持原 始 语言 中 输入 的 释义 ; 允许 分 析 器 和 生成 器 都 是 由 单 语系 统 开发 人 员 
编写 ; 可 以 处 理 彼此 差异 非常 大 的 语种 (如 英语 和 阿拉 伯 语 ) 。 明 显 的 缺点 是 ， 对 于 更 广泛 的 领域 
来 说 , 语 际 的 定义 是 困难 的 ， 甚 至 是 不 可 能 的 。 因 此 , 语 际 机 器 翻译 的 理想 语 境 是 在 一 个 非常 特定 
的 领域 中 进行 多 语言 机 器 翻译 。 


"LED 


11-2 利用 桥接 语言 进行 翻译 的 过 程 

1. 语 际 机 器 翻译 的 历史 背景 

关于 语 际 机 器 翻译 的 第 一 个 想法 出 现在 17 E, EFIR (Descartes) 和 莱 布 尼 兹 (Leibniz) 
提出 了 如 何 使 用 通用 数字 代码 创建 字典 的 理论 。 其 他 人 , 如 Cave Beck, Athanasius Kircher 和 Johann 
Joachim Becher， 他 们 致力 于 开发 一 种 基于 逻辑 和 图 像 学 原理 的 明确 通用 语言 。1668 年 ， 约 翰 。 威 
尔 金 斯 (John Wilkins) 在 “ 论 真正 的 性 格 和 哲学 语言 ”论文 中 摘 述 了 他 的 语 际 〈 中 间 语 言 ) 。 在 
18 世纪 和 19 世纪 ,人 们 开发 了 许多 关于 “通用 ”国际 语言 的 提案 , 其 中 最 著名 的 是 世界 语 (Esperanto)。 

也 就 是 说 ， 将 通用 语言 的 概念 应 用 于 机 器 翻译 并 没有 出 现在 任何 重要 的 方法 中 , 相反， 工作 开 
始 于 成 对 的 语言 。 然 而 ， 在 二 十 世纪 五 十 年 代 和 六 十 年 代 ， 以 玛 格 丽 特 。 马 斯 特 曼 (Margaret 
Masterman) 为 首 的 剑桥 、 尼 古 拉 。 安 德 烈 夫 (Nikolai Andreev) 为 首 的 列宁 格 勒 和 西 尔 维 奥 。 切 
卡 托 (Silvio Ceccato ) 为 首 的 米兰 等 三 地 的 研究 人 员 开 始 在 这 一 领域 开展 工作 。 以 色 列 哲学 家 
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Yehoshua Bar-Hillel 于 1969 年 才 广 泛 讨 论 了 这 一 想法 。 

二 十 世纪 七 十 年 代 ， 在 格 勒 诺 布尔 市 〈Grenoble， 法 国 东南 部 城市 ， 伊 泽 尔 省 首府 ) ， 研 究 人 
员 试 图 将 物理 学 和 数学 文本 从 俄语 翻译 成 法 语 ， 这 些 相 关 研 究 才 开始 引起 注意 。 在 德 殉 了 萨 斯 州 ， 类 
似 的 项 目 (METAL) 正在 进行 俄语 翻译 到 英语 的 研究 。20 世纪 70 年 代 , 罗 杰 * 申 元 (Roger Schank) 
TZ 3i vá * EAR vor CYorick Wilks) 在 斯 坦 福 就 建立 了 早期 的 语 际 机 器 翻译 系统 ， 前 者 〈 罗 杰 。 申 
死 早 期 的 语 际 机 器 翻译 系统 ) 演变 为 商业 资金 转移 系统 的 基础 ， 后 者 ( 约 瑞 克 * 威 尔 克 斯 早期 的 语 
际 机 器 翻译 系统 ) 的 代码 保存 在 波士顿 的 计算 机 博物 馆 ， 作 为 第 一 个 语 际 机 器 翻译 系统 。 

在 二 十 世纪 八 十 年 代 , 基于 中 间 语 和 基于 知识 的 机 器 翻译 方法 重新 得 到 了 重视 , 在 该 领域 进行 
了 大 量 研究 。 这 项 研究 的 联合 因素 是 高 质量 的 翻译 需要 放弃 要 求 对 文本 全 面 理解 的 想法 , 翻译 应 基 
于 语言 知识 和 系统 使 用 的 特定 领域 。 当 代 最 重要 的 研究 是 在 乌 得 勒 文 市 (Utrecht) 完成 的 分 布 式 语 
言 翻译 (Distributed Language Translation, DLT) ， 该 翻译 研究 中 使 用 了 世界 语 的 修改 版 本 和 日 本 
的 富士 通 系统 。 

2. 语 际 机 器 翻译 概要 

语 际 (中 间 语 言 ) 可 以 被 认为 是 一 种 描述 对 源 语 言 编 写 的 文本 进行 分 析 的 一 种 方法 ， 从 而 可 以 
将 其 形态 、 人 句法 、 语 义 特 征 ， 即 “意思 ”转换 为 目标 语言 。 这 个 中 间 语 言 能 够 描述 所 有 要 翻译 的 语 
言 的 所 有 特征 ， 而 不 是 简单 地 从 一 种 语言 翻译 成 男 一 种 语言 。 图 11-3 给 出 了 语 际 机 器 翻译 与 简单 
机 器 翻译 的 简要 对 比 情 况 。 


(a) 直接 或 基于 传输 的 机 器 (b) 使 用 语 际 时 所 需 的 
翻译 所 需 的 翻译 〈 需 要 12 个 词典 ) 翻译 〈 仅 需要 8 个 翻译 模块 ) 


图 11-3 语 际 机 器 翻译 与 简单 机 器 翻译 的 简要 对 比 


有 时 在 翻译 中 使 用 两 个 语 际 , 其 中 一 个 涵盖 更 多 的 源 语言 特征 , 男 一 个 则 具有 更 多 的 目标 语言 
特征 , 然后 翻译 通过 两 个 阶段 将 句子 从 源 语言 转换 为 更 接近 目标 语言 的 句子 。 还 可 以 对 系统 进行 相 
关 设 置 ， 使 得 第 二 个 语 际 使 用 更 接近 或 更 符合 目标 语言 的 具体 词汇 ， 以 便 提高 翻译 质量 。 图 11-4 
给 出 了 使 用 两 个 语 际 的 翻译 示意 图 。 

上 述 系统 的 思想 基础 是 : 使 用 语言 接近 性 来 提高 从 一 种 原始 语言 的 文本 到 许多 其 他 结构 相似 的 


语言 的 翻译 质量 ， 这 种 翻译 质量 来 目 于 一 种 原始 分 析 。 该 原理 也 用 于 Pivot 机 天 翻译 ， 其 中 目 然 语 
言 被 用 作 两 种 更 远 语 言 之 间 的 “ 桥 染 ”, 如 使 用 俄语 作为 语 际 中间 语 言 ) 从 乌克兰 语 翻 译 成 英语 。 
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3. 语 际 机 器 翻译 流程 


11-4 ”使 用 两 个 语 际 的 翻译 


在 语 际 机 右 翻 译 系统 中 有 两 个 单 语 组 件 : 源 语言 和 语 际 的 分 析 及 语 际 和 目标 语言 的 生成 .然而 ， 
有 必要 区 分 仅 使 用 句法 方法 的 语 际 系统 (如 二 十 世纪 七 十 年 代 在 格 勒 诺 布尔 和 德 殉 陛 斯 大 学 开发 的 


系统 ) 和 基于 人 工 智 能 的 系统 (1987 年 在 日 本 、 南 加 州 大 学 和 卡耐基 梅 隆 大 学 的 研究 ) 。 第 一 种 
类 型 的 系统 对 应 于 图 11-2 中 概述 的 系统 ， 其 他 类 型 类 似 于 图 11-5 所 示 的 内 容 。 


> "— Lexicón conceptual 
Analizador Gramáticas de análisis + Texto en 
Sintáctico [ATT lexicón de análisis interlingua 
Estructuras 
Sintácticas 


desambiguado 
Intérprete 


Selección 
léxica y Lexicón de generación y 

generador de Er reglas de proyección 
l estructuras 
reglas de „Reglas de proyección sintácticas 

proyección 
Estructuras 
sintácticas 
Generador Texto en la 
Gramática de generación ............ ^| sintáctico : lengua meta 


R 11-5 基于 认 知 系统 的 机 器 翻译 
对 于 语 际 机 器 翻译 系统 而 言 ， 其 需要 以 下 资源 : 


(OD 用 于 分 析 和 生成 的 字典 (或 词典 ) ， 特 定 领域 和 所 涉及 的 语言 。 


(20 概念 词典 (特定 领域 )， 它 是 关于 领域 内 已 知事 件 和 实体 的 知识 库 。 
(3) 一 组 映射 规则 (特定 领域 和 语言 


(D. 用 于 分 析 和 生成 所 涉及 语言 的 语法 。 


基于 知识 库 的 机 器 翻译 系统 存在 两 个 问题 , 其 一 是 我 们 不 可 能 超过 特定 领域 来 创建 数据 库 ; 其 
二 是 对 这 些 数据 库 的 计算 成 本 非常 高 。 
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4. 语 际 机 器 翻译 的 有 效 性 


该 策略 的 主要 优点 之 一 是 它 提供 了 一 种 制作 多 语言 翻译 系统 的 经 济 方法 。 有 了 中 间 语 言 , 就 不 
必 在 系统 中 为 每 一 对 语言 建立 翻译 对 。 因 此 , 不 必 创 建 n(n-1) 语 言 对 , 其 中 是 系统 中 的 语言 数量 ， 
只 需要 在 n 种 语言 和 中 间 语 言 之 间 建 立 2n 对 即 可 。 

这 种 策略 的 主要 难点 是 难以 创造 合适 的 中 间 语 言 , 它 既 抽象 又 独立 于 源 语言 和 目标 语言 。 添 加 
到 翻译 系统 的 语言 越 多 , 中 间 语 言 表达 所 有 可 能 的 翻译 方 同 的 效果 就 越 强 。 男 一 个 难点 是 难以 从 原 
始 语 言 的 文本 中 提取 其 含义 以 创建 中 间 表 示 。 


11.23 ”基于 字典 的 机 器 翻译 


机 器 翻译 可 以 使 用 基于 字典 条 目的 方法 , 这 意味 着 字 词 将 像 字 典 中 逐 字 翻译 一 样 被 翻译 , 通常 
在 这 些 字 词 翻译 之 间 没 有 太 多 意义 上 的 关联 。 无论 存 不 存在 形态 或 词法 分 析 , 通过 字典 得 询 的 方式 
均 可 以 完成 这 类 翻译 。 虽 然 这 种 机 器 翻译 方法 比较 简单 , 但 是 基于 字典 的 机 器 翻译 理论 上 适用 于 在 
子 语句 (不 是 完整 的 句子 ) 级 别 上 的 长 短语 列表 的 翻译 ， 例 如 库存 或 简单 产品 和 服务 的 目录 可 以 理 
想 地 适用 这 种 子 语句 〈 即 ， 不 是 完整 句子 ) 级 别 上 的 翻译 。 

如 果 翻 译 人 员 可 以 熟练 地 掌握 需要 处 理 的 两 种 语言 , 就 能 够 快速 纠正 句法 和 语法 , 也 可 以 加 速 
TB. 

机 需 翻 译 的 最 初 技 术 之 一 是 基于 字典 或 字 词 的 机 器 翻 译 ， 该 系统 使 用 双语 词典 进行 逐 字 翻译 。 
但 是 ， 这 种 方法 存在 一 个 明显 的 限制 就 是 词 对 词 的 翻译 不 是 两 种 语言 之 间 简 单 的 一 对 一 映射 关系 。 
此 外 , 字 词 到 字 词 的 翻译 可 能 会 导致 错误 的 结果 ,因为 它 不 考虑 字 词 的 语 境 。 源 语言 中 字 词 的 翻译 
可 以 根据 使 用 的 语 境 而 改变 。 用 一 个 具体 的 例子 来 理解 这 一 点 , 如 图 11-6 中 是 英语 到 法 语 的 翻译 。 
可 以 看 到 ， 在 给 定 的 两 个 英语 句子 中 ， 一 个 单词 发 生 了 变化 。 


She loves cats She loves him 


Elle aime les chats Elle l'aime 
11-6 语言 之 间 的 翻译 (英语 到 法 语 ) 不 是 单词 之 间 简 单 的 一 对 一 映射 关系 


1966 年 ， 美 国 国 家 科学 院 自动 语言 处 理 咨询 委员 会 (ALPAC) 发 表 了 一 篇 天 于 机 器 翻译 前 景 
的 报告 ， 即 《语言 和 机 器 : 翻译 和 语言 学 中 的 计算 机 》 C (Ganguages and Machines: Computers in 
Translation and Linguistics) ) ， 结 论 是 : 对 于 实用 的 机 器 翻译 而 言 ， 没 有 直接 或 可 以 预测 的 前 景 。 

这 是 因为 当时 的 机 器 翻译 比 人 类 的 翻译 更 慢 、 更 不 准确 、 更 昂贵 ， 这 给 机 器 翻译 的 进步 带 来 了 
巨大 打击 ， 导 致 近 十 年 的 沉默 。 

接 下 来 是 基于 语料库 的 机 器 翻译 , 其 中 使 用 源 语句 元 组 训练 算法 , 并 通过 平行 语料库 获得 相应 
的 目标 语句 ， 即 平行 语料库 的 格式 为 ([(<source sentence 1>,<target sentence 1>), («source sentence 2>, 
«target sentence 2»), .….])。 并 行 语料库 是 一 个 以 元 组 形式 形成 的 大 型 文本 语料库 ， 由 源 语言 的 文本 
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和 对 应 的 文本 翻译 组 成 ， 如 表 11-1 所 示 。 应 该 指出 的 是 ， 构 建 并 行 语料库 比 构建 双语 词典 要 容易 
得 多 并 且 更 准确 ， 因 为 该 方法 训练 数据 时 比 逐 字 训 练 数据 更 丰富 ， 所 以 更 加 精确 。 此 外 ， 使 用 平行 
语料库 可 以 建立 两 种 语言 的 双语 词典 〈 即 转换 模型 ) ， 而 不 是 直接 依靠 人 工 创 建 的 双语 词典 。 在 给 
定 当前 源 语 言词 /短语 的 情况 下 ， 转 换 模型 显示 目标 词 /短语 被 正确 翻译 的 可 能 性 。 除 了 学 习 转 换 模 
型 ， 基 于 语料库 的 机 器 翻译 (MT) 还 学 习 单 词 对 齐 模型 。 单 词 对 齐 模型 可 以 表示 来 和 目 源 语言 的 短 
语 中 的 单词 如 何 对 应 于 该 短语 的 翻译 。 如 图 11-7 是 平行 语料库 和 单词 对 齐 模型 的 示例 。 


表 11-1 并 行 语料库 


Source language sentences Target language sentences 
[UD MENS auiem —— 


I went lIwenhome .  -. Je suis allé à Je suis allé à la maison — maison 


John likes to play guitar John aime jouer de la guitare 
He is from England Il est d' MEE 


john 
[or course] [john] [has] [fon wn me] [pame 


图 11-7 两 个 不 同 语言 之 间 的 单词 对 齐 


11.3 统计 机 器 翻译 


统计 机 器 翻译 (Statistical Machine Translation, SMT) 是 一 种 基于 统计 模型 的 机 器 翻译 范式 ， 
统计 模型 的 参数 来 自 双 语文 本 语料库 的 分 析 。 统 计 方 法 与 基于 规则 的 机 器 翻译 方法 及 基于 实例 的 机 
a i VEJE EST EE. 

Ikie **h 3B CWarren Weaver) 于 1949 年 首先 提出 了 统计 机 器 翻译 的 概念 , 包括 应 用 克 劳 德 香 
农 的 信息 论 思 想 。 二 十 世纪 八 十 年 代 末 和 九 十 年 代 初 , IBM 的 托马斯 *J IKR (Thomas J. Watson) 
研究 中 心 的 研究 人 员 重 新 引入 了 统计 机 器 翻译 , 并 在 很 大 程度 上 促进 了 近年 来 众人 对 机 器 翻译 研究 
的 兴趣 ， 如 今 它 已 是 机 器 翻译 研究 领域 最 广泛 的 方法 。 


natuerlich 


11.3.4 统计 机 器 翻译 的 基础 


me (如 英语 ) ind nu ) pon e 
关于 概率 分 布 p(e | 站 的 建 模 问 题 其 实 已 经 有 多 种 方式 进行 了 探讨 。 一 种 适合 于 计算 机 实现 的 
方法 是 应 用 贝 叶 斯 定理 ， 即 p(e | 有) x p(f 1e)p(e)， 其 中 翻译 模型 p(f | e) 是 源 字符 串 由 目标 字符 
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串 翻译 的 概率 ， 语言 模 型 p(e) 是 目标 语言 字符 串 出 现 的 概率 。 这 种 分 解 是 有 吸引 力 的， 因为 它 分 解 
成 了 两 个 子 问 题 。 找 到 最 佳 翻 译 e 是 通过 选择 一 个 给 出 最 高 概率 的 翻译 来 完成 的 : 


é = ar gmaxçecenp(e | f) = argmaxçecenp(f | e)p(e) 


为 了 更 加 续 密 地 实现 这 一 点 ， 必 须 通 过 遍历 本 地 语言 中 的 所 有 字符 串 e' € 来 执行 彻底 的 搜 
索 。 高 效 地 执行 搜索 是 机 器 翻译 解码 器 的 工作 ， 该 解码 器 使 用 外 来 字符 串 、 启 发 式 和 其 他 方法 来 
限制 搜索 空间 ， 且 同时 保持 可 接受 的 质量 。 这 种 在 质量 和 时 间 使 用 之 间 的 折 中 也 可 以 在 语音 识别 
应 用 中 找到 。 

由 于 翻译 系统 无 法 存储 所 有 本 地 字符 串 及 其 翻译 , 因此 文档 通常 逐 句 翻译 , 但 是 即使 这 样 也 是 
不 够 的 。 语 言 模型 通常 由 平滑 的 n-gram 模型 近似 ， 并 且 类 似 的 方法 已 经 应 用 于 翻译 模型 ， 由 于 语 
言 中 的 句子 长 度 和 单词 顺序 不 同 而 存在 额外 的 复杂 性 。 

统计 翻译 模型 最 初 是 来 自 Stephan Vogel 的 IBM Hidden Markov 的 模型 1-5 和 Franz-Joseph Och 
的 模型 6 等 这 些 具有 时 代 开创 性 的 模型 它们 进行 了 基于 单词 的 翻译 。 但 是 ,单词 翻译 不 是 从 源 语 
言 到 目标 语言 的 一 对 一 关系 (如 复合 词 和 形态 ) ， 最 终 研究 人 员 开 始 尝试 基于 短语 的 翻译 系统 ， 这 
些 翻译 系统 在 机 器 翻译 方面 取得 了 显著 的 进步 。 


11.3.2 ”基于 词 的 翻译 


在 基于 词 的 翻译 GE: 在 拼音 文字 中 词 也 指 单词 ) 中 ， 基 本 单位 是 某 种 目 然 语 言 中 的 词 。 由 于 
合 词 、 词 形态 和 习 语 的 差异 ， 因 此 所 翻译 句子 中 的 词 数量 也 是 不 同 的 。 翻 译 词 序列 长 度 的 比率 称 

为 生产 率 ， 它 表示 每 个 本 地 词 产生 多 少 个 外 来 词 。 从 信息 理论 的 角度 来 看 ， 必 然 会 假设 每 个 词 都 涵 
盖 相 同 的 概念 ， 而 在 现实 中 ， 这 未 必 都 是 对 的 。 例 如 ， 英 语 单词 comer 可 以 根据 它 是 指 内 部 角度 
或 外 部 角度 翻译 为 西班牙 语 单 词 rincón 或 esquina. 

简单 的 基于 词 的 翻译 不 能 在 具有 不 同 生产 比率 的 语言 之 间 进 行 翻译 .而 基于 词 的 翻译 系统 处 理 
高 生产 率 的 语言 相对 容易 些 ， 可 以 将 单个 词 映 射 到 多 个 词 ， 反 之 则 不 能 。 人 例如， 如果 我 们 从 英语 翻 
译 成 法 语 ， 英语 中 的 每 个 单词 都 可 以 产生 任意 数量 的 法 语 单 词 ， 有 时 甚至 一 个 也 没有 , 但 是 这 里 却 
没有 办 法 将 两 个 英语 单词 组 合成 一 个 法 语 单 词 。 

基于 词 的 翻译 系统 有 一 个 免费 提供 的 GIZA ++ 软 件 包 (GPLed) ， 其 中 包括 IBM 模型 、HMM 
模型 及 模型 6 的 训练 程序 。 

目前 ， 基 于 词 的 翻译 没有 被 广泛 应 用 ， 而 基于 短语 的 系统 则 比较 常见 ， 大 多 数 基 于 短语 的 系 
统 仍 然 使 用 GIZA ++ 来 对 齐 语料库 。 对 齐 方 法 用 于 提取 短语 或 推导 句法 规则 。 在 双语 中 匹配 词 仍 
然 是 相关 技术 社区 中 积极 讨论 的 问题 。 由 于 GIZA ++ 的 优势 ， 现 在 有 几 种 在 线 分 布 式 翻译 系统 得 
以 实现 。 


11.3.3 ”基于 短语 的 翻译 


在 基于 短语 的 翻译 中 , 目的 是 通过 翻译 整个 词 序 列 来 减少 基于 词 的 翻译 限制 , 其 中 词 序列 长 度 
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可 以 不 同 。 词 序列 被 称 为 词 块 或 短语 , 但 通常 不 是 语言 意义 上 的 短语 ,而 是 使 用 统计 方法 从 语料库 
中 发 现 的 短语 。 相 关 研 究 已 经 表明 ， 将 短语 限制 为 语言 意义 上 的 短语 (句法 激发 的 词组 ， 参 见 句 法 
AD 会 降低 翻译 质量 。 

基于 短语 的 翻译 工作 原理 与 基于 词 的 翻译 类 似 , 只 是 它 使 用 语言 的 短语 作为 翻译 的 最 小 单位 而 
不 是 单个 词 。 这 是 一 种 更 明智 的 方法 ， 因 为 它 可 以 更 轻松 地 对 词 之 间 的 一 对 多 、 多 对 一 或 多 对 多 关 
系 进行 建 模 。 基 于 短语 翻译 的 主要 目标 是 学 习 服 从 茶 一 概率 分 布 的 短语 翻译 模型 ， 该 概率 分 布 由 给 
定 源 短 语 的 不 同 候选 目标 短语 产生 。 基 于 短语 的 翻译 的 主要 目标 是 学 习 包 含 给 定 源 短语 的 不 同 候选 
目标 短语 的 概率 分 布 的 短语 翻译 模型 。 可 以 想象 , 这 种 方法 不 仅 涉 及 需要 维护 由 两 种 语言 中 各 类 短 
语 产生 的 巨大 数据 库 , 还 需要 执行 短语 的 重新 排序 ,因为 在 一 种 语言 的 句子 和 另 一 种 语言 之 间 没 有 
词 的 单调 排序 。 如 果 词 在 语言 之 间 单 调 排序 ， 则 词 映 射 之 间 不 应 存在 交叉 。 

尽管 如 此 ， 该 方法 仍然 存在 解码 过 程 〈 找 到 给 定 源 短 语 的 最 佳 目标 短语 ) 非常 帅 贯 的 局 限 性 ， 
这 是 由 短语 数据 库 的 大 小 及 通 币 包含 多 个 目标 语言 短语 的 源 短语 引起 的 。 为 了 减轻 这 些 负 担 , 基于 
句法 的 翻译 便 出 现 了 。 


11.3.4 ”基于 句法 的 翻译 


基于 句法 的 翻译 是 基于 翻译 句法 单元 的 思想 , 而 不 是 基于 单个 词 或 词 串 (如 在 基于 短语 的 机 器 
翻译 中 ) ， 即 解析 句子 /表达 的 树 形 结构 。 基 于 句法 的 翻译 的 思想 在 机 器 翻译 中 其 实 “ 历 史 悠 久 ”， 
直到 20 世纪 90 年 代 出 现 强大 的 随机 分 析 器 后 ,基于 统计 的 机 器 翻译 才 开 始 兴 起 。 基 于 句法 的 翻译 
这 种 方法 的 示例 包括 基于 DOP 的 机 器 翻译 及 最 近 的 同步 上 下 文 无 关 语 法 的 机 器 翻译 。 

在 基于 句法 的 翻译 中 ， 源 语句 由 句法 树 表示 。 这 里 简要 给 出 一 个 示例 ， 如 图 11-8 所 示 ，NP 表 
示 名 词 短语 ，VP 表示 动词 短语 ，S 表示 句子 。 接 着 ， 在 重新 排序 阶段 ， 依 据 目标 语言 对 树 节 点 进 
行 重新 排序 ， 以 改变 主语 、 谓 语 和 宾语 的 顺序 。 这 是 因为 句子 结构 可 以 根据 语言 而 变化 〈 在 英语 中 
是 主 - 谓 - 宾 ， 而 在 日 语 中 则 是 主 - 宾 - 谓 ) 。 重 新 排序 是 由 R- 表 来 决定 的 ， 该 表 包 含 树 节点 被 改变 为 


其 他 顺序 的 似 然 概率 。 


The cat sat on the mat 
11-8 一 个 句子 的 句法 树 


然后 ， 进 入 插入 阶段 。 在 插入 阶段 ， 我 们 随机 地 将 一 个 词 插 入 到 树 的 每 个 节点 中 《假设 存在 不 
可 见 的 NULL 词 ， 并 且 它 在 树 的 随机 位 置 处 生成 目标 词 ) ， 插 入 词 的 概率 由 N- 表 决定 ， 该 表 是 包 
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含 特定 词 插 入 树 中 概率 的 表 。 
最 后 ， 是 翻译 阶段 ， 其 中 每 个 叶 节 点 以 逐 词 方式 翻译 为 目标 词 ， 从 人 句法 树 中 读 出 翻译 的 句子 ， 
以 构造 目标 语句 。 


11.3.5 “基于 分 层 短 语 的 翻译 


基于 分 层 短 语 的 翻译 结合 了 基于 短语 和 基于 句法 两 类 翻译 方法 的 优势 , 使 用 同步 的 无 上 下 文 语 
法 规则 。 语 法 可 以 通过 扩展 基于 短语 的 翻译 方法 来 构建 ， 而 不 需要 参考 语言 驱动 的 句法 成 分 ， 这 个 
想法 最 初 是 在 Chiang 的 Hiero 系统 (2005) 中 引入 的 。 


11.8.6 Zi eS SSVEBJDLZ E M IE 


统计 机 融 翻 译 的 优势 : 


e 更 有 效 地 利用 人 力 和 数据 资源 。 
@ 在 机 器 可 读 格 式 和 更 多 单 语 数 据 中 有 许多 平行 语料库 。 
LE 


e 一 般 来 说 ， 统 计 机 器 翻译 (SMT) 系统 不 适合 任何 特定 的 语言 天 
e 基于 规则 的 翻译 系统 需要 人 工 开 发 语言 规则 ， 会 带 来 很 高 的 人 工 成 本 ， 而 且 这 些 语言 规 
则 通常 不 能 在 其 他 语言 中 通用 。 


11.4 ”神经 网 络 机 器 翻译 


关于 神经 网 络 机 器 翻译 (Neural Machine Translation, NMT) 的 概念 , 我 们 在 开头 部 分 已 经 给 出 ， 
这 里 不 再 进行 解读 。 


11.4.1 发 展 背 景 


在 二 十 世纪 八 十 年 代 和 九 十 年 代 的 最 后 一 波 神经 网 络 研究 中 ,机 器 翻译 其 实 已 经 进入 研究 人 员 
(Waibel 等 ，1991) 探索 的 视野 之 内 。 事 实 上 ，Forcada 和 Neco (1997) 及 Castaño 等 人 提出 的 模 
型 (1997) 与 目前 的 主流 神经 网 络 机 器 翻译 方法 类 似 。 遗 憾 的 是 ， 这 些 模型 都 没有 经 过 足够 大 的 数 
据 样本 训练 , 更 没有 产生 过 任何 有 价值 的 结果 。 由 于 所 涉及 的 计算 复杂 性 远 远 超过 那个 时 代 的 计算 
能 力 ， 因 此 这 个 想法 被 弃置 了 将 近 二 十 年 。 
在 此 起 伏 期 间 ， 诸 如 基于 短语 的 统计 机 器 翻译 等 数据 驱动 方法 从 默默 无 闻 上 升 到 占 主导 地 位 ， 
并 使 机 器 翻译 成 为 许多 应 用 的 有 用 工具 ， 从 信息 提供 到 提升 专业 翻译 人 员 的 翻译 水 平等 。 
机 器 翻译 中 神经 网 络 方法 的 现代 复兴 得 益 于 将 神经 网 络 语言 模型 集成 到 传统 的 统计 机 器 翻译 
RAP. WL (Schwenk) (2007) 的 开创 性 工作 显示 了 在 公众 评论 应 用 中 的 巨大 改进 。 这 些 想 
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法 之 所 以 慢 慢 被 采用 ， 主 要 是 由 于 计算 方面 的 考虑 。 使 用 GPU 进行 训练 也 给 许多 研究 小 组 珊 来 了 
新 的 挑战 ， 因 为 他 们 缺乏 这 样 的 硬件 或 开发 经 验 。 

除了 在 语言 模型 中 使 用 之 外 , 神经 网 络 方法 还 渗透 到 传统 统计 机 器 翻译 的 其 他 组 件 中 , 例如 提 
供 额外 的 分 数 或 扩展 翻译 表 (Schwenk, 2012; Lu 等 ，2014) 、 重 新 排序 (Kanouchi ^$, 2016; 
Li &, 2014) 以 及 预 排序 模型 (de Gispert 等 人 ，2015) 等 。 德 夫 林 (Devlin) 等 人 的 联合 翻译 和 
语言 模型 (2014) 是 具有 深远 影响 的 ， 因 为 它 在 竞争 非常 激烈 的 统计 机 器 翻译 系统 上 显示 出 翻译 质 
量 的 很 大 改进 。 

由 于 越 来 越 多 的 研究 集中 在 纯 神 经 网 络 机 器 翻译 领域 ,因此 导致 统计 方法 基本 上 处 于 搁置 状态 。 
早期 的 方法 是 使 用 卷 积 模型 (Kalchbrenner 和 Blunsom, 2013) 和 序列 到 序列 模型 (Sutskever 等 ， 
2014; Cho 等 ，2014) ， 这 些 能 够 为 短 句 产生 合理 的 翻译 ， 但 是 随 着 句子 长 度 的 增加 翻译 结果 就 
会 变 得 分 朋 离 析 。 而 注意 力 机 制 的 加 入 最 终 产 生 了 有 具有 竞争 力 的 结果 (Bahdanau $, 2015; Jean 
SE, 2015) 。 随 独 对 目标 单 语 种 数据 的 字 节 及 对 编码 和 回 译 等 进一步 的 细 化 ， 神 经 网 络 机 器 翻译 成 
为 新 的 研究 领域 。 

最 近 几 年 ,机 器 翻译 的 整个 研究 都 是 围绕 神经 网 络 领域 开展 的 , 而 一 些 迹 象 也 表明 了 这 种 变化 : 
在 机 器 翻译 会 议 CConference on Machine Translation, WMT) 上 的 机 器 翻译 分 享 部 分 ，2015 年 只 
提交 了 一 个 纯 神 经 网 络 机 器 翻译 系统 方面 的 内 容 ; 而 2017 年 几乎 提交 的 都 是 关于 神经 网 络 机 器 翻 
译 系 统 方面 的 内 容 ， 神 经 网 络 方法 在 传统 机 器 翻译 中 显示 出 很 强 的 竞争 优势 。 

如 图 11-9 所 示 为 统计 机 器 翻译 系统 与 神经 网 络 机 器 翻译 系统 数量 的 对 比 ，2016 年 的 结果 来 日 
Sennrich 和 其 他 人 的 论文 《Edinburgh Neural Machine Translation Systems for WMT 16》(Association 
for Computational Linguistics, Proceedings of the First Conference on Machine Translation, 2016 年 8 
H: 371-376) ， 以 及 威廉 姆 斯 等 人 的 论文 《Edinburgh's Statistical Machine Translation Systems for 
WMTI6) (Association for Computational Linguistics, Proceedings of the First Conference on Machine 
Translation, 2016 年 8 月 : 399-410) . 


BLEU on newslest2013 (EN-DE) 


i s phrase-based SMT 
I s syntax-based SMT 
Es neural MT 


图 11-9 统计 机 器 翻译 系统 与 神经 网 络 机 器 翻译 系统 数量 的 对 比 


我 们 看 到 神经 网 络 机 器 翻译 (NMT) 系 统 的 数量 在 短 短 几 年 内 已 经 超越 了 统计 机 器 翻译 (SMT) 
系统 的 数量 。 接 下 来 我 们 将 详细 讨论 神经 网 络 机 器 翻译 系统 的 结构 。 
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11.4.2 ”神经 网 络 机 希 翻 幸 的 特性 


神经 网 络 机 器 翻译 是 一 种 机 器 翻译 方法 , 它 使 用 大 型 人 工 神经 网 络 来 预测 词 序 列 的 可 能 性 , 通 
常 在 单个 集成 模型 中 对 整个 句子 进行 建 模 。 

男 外 ,与 传统 机 占 翻 详 系 统 不 同 ， 神 经 网 络 翻 译 模型 的 所 有 部 分 都 是 联合 训练 〈( 端 到 端 ) 以 最 
大 化 翻译 性 能 。 


11.4.3 ”通过 例子 来 认识 神经 网 络 机 怖 翻译 (NMT) 模型 的 结构 


首先 ， 我 们 来 了 解 一 下 神经 网 络 机 器 翻译 (NMT) 系统 设计 的 样子 。 假 如 你 的 英语 和 德语 水 
平 非常 好 ， 公 司 要 求 你 将 以 下 德语 句子 翻译 成 英语 句子 : 

Ich ging nach Hause. 

这 个 句子 被 翻译 成 如 下 句子 : 

I went home. 

尽管 对 于 两 种 语言 都 非常 流利 的 专业 翻译 人 员 来 讲 , 翻译 起 来 也 就 需要 花 几 秒 钟 的 时 间 , 但 是 
翻译 的 流程 是 一 样 都 不 能 少 的 。 首先 阅读 德语 句子 , 然后 创建 一 个 关于 该 句子 代表 或 暗示 的 意思 或 
概念 ， 最 后 将 句子 翻译 成 英语 。 同 样 的 思路 也 被 用 来 构建 神经 网 络 机 器 翻译 系统 〈 见 图 11-10) 。 
即 编码 器 读 取 源 句 〈 了 阅读 德语 句子 ) ， 然 后 编码 器 输出 上 下 文 问 量 〈 对 应 于 阅读 句子 后 所 想象 的 意 
思 或 概念 ) ， 最 后 解码 器 接收 上 下 文 回 量 并 以 英语 输出 翻译 句子 。 


Ich ging nach Hause | went home 


Source Sentence Target Sentence 


图 11-10 神经 网 络 机 器 翻译 系统 的 概念 架构 图 


11.4.4 神经 网 络 机 器 翻译 (NMT) 模型 结构 详解 


现在 我 们 将 详细 地 研究 神经 网 络 机 器 翻译 的 架构 ， 这 里 讨论 的 序列 到 序列 方法 是 由 Sutskever. 
Vinyals 和 Le 在 他 们 的 论文 《Sequence to Sequence Learning with Neural Networks, Proceedings of the 
27th International Conference on Neural Information Processing Systems - Volume 2: 3104-3112》 中 提 
出 的 。 从 图 11-10 可 以 看 出 ， 神 经 网 络 机 器 翻译 架构 中 有 两 个 主要 组 件 ， 分 别 被 称 为 编码 器 和 解码 
独 。 换 名 话说， 神经 网 络 机 器 翻译 可 以 被 视 为 编 色 器 -解码 器 架构。 编码 占 先 将 句子 从 给 定 的 源 语 


语 际 机 器 翻译 方法 有 一 些 共同 之 处 ， 如 图 11-11 所 示 ， 下 文 向 量 的 左 侧 表示 编码 器 (其 逐 字 地 获取 
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源 语 句 以 训练 时 间 序 列 模型 ) ， 右 侧 表示 解码 器 ， 其 逐 字 输出 〈 同 时 使 用 前 一 个 词 作为 当前 输入 ) 
源 语 句 的 相应 翻译 结果 。 我 们 还 将 使 用 词 和 仍 入 层 〈 用 于 源 语言 和 目标 语言 ) 来 提供 词 问 量 作 为 模型 
的 输入 。 


| went home </s> 


0.1 

0.2 

0.1 

0. 

0.5 

0.7 
Source Embeddinc Context 
Ich ging nach Hause <s> Vector «s» | went home 


11-11 源 语言 和 目标 语言 句子 展开 的 示意 图 


对 神经 网 络 机 器 翻译 的 整体 架构 有 基本 了 解 之 后 ,我 们 来 正式 定义 一 下 神经 网 络 机 器 翻译 系统 
的 目标 。 神 经 网 络 机 器 翻译 系统 的 最 终 目标 是 在 给 定 源 语句 xs 及 其 相应 的 yz 的 情况 下 的 最 大 化 对 数 
似 然 性 ， HJ: 


N 

1 

v2. logP (yr | xs) 
l= 


这 里 ， 是 训练 数据 中 源 语 言 和 目标 语言 句子 的 元 组 数目 。 
在 推理 期 间 ， 对 于 给 定 的 源 语言 句子 xsY* 而 言 ， 我 们 通过 以 下 式 子 得 到 目标 语言 句子 ybest。 


M 
yP55! —argmax(yey,)P (yr | x d T) = argmax(yey,) | [Po | xi e 


i=1 

这 里 ，y7 是 备 选 句子 的 集合 。 

在 研究 神经 网 络 机 器 翻译 NMT) 架构 的 每 个 部 分 之 前 ， 先 定义 一 些 数 学 符号 以 便 更 好 地 理 
解 神经 网 络 机 器 翻译 系统 。 

将 LSTM (长 短期 记忆 网 络 ) 的 编码 器 定义 为 CSTM。 ， LSTM 的 解码 器 定义 为 LSTMjec; 在 
WHE t E, K LSTM 的 细胞 状态 定义 为 c:， 外 部 隐藏 状态 定义 为 h,.。 因 此 ， 将 x 输入 LSTM 会 产 
^E cL BIA, : 

Ct, he = LSTM (x | X1, X2, ..., X(t21)) 

WE, RITIRI ERRA, ma LE FIERDE o 

1. PERAE 


在 这 里 我 们 使 用 两 个 词 租 入 层 : Embs 作 为 源 语言 ; Embr EJ HERE m o 我们 将 获得 Emb(x)， 
而 不 是 将 xt 直 接 输 入 给 LSTM。 但 是 ， 为 了 避免 不 必要 地 增加 符号 ， 假 设 xt= Emb(x;). 
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2. 编码 器 


如 前 所 述 ， 编 码 器 负责 生成 源 语言 句子 转换 为 “想法 ”的 回 量 ， 或 者 说 是 生成 表示 源 语言 含义 
的 上 下 文 回 量 。 为 此 ， 我 们 将 使 用 到 LSTM 网 络 ， 如 图 11-12 所 示 。 


输 
WAN (F, ) 


11-12 LSTM 单个 细胞 的 示意 图 


编码 器 用 co 和 j 加 初始 化 为 零 向 量 。 编 码 器 将 一 系列 词 xs = (xi. xà. o xtME2 Jm N3EVESRE 
上 下 文 同 量 v = fw ，zZ}， 其 中 到 是 最 终 的 细胞 状态 ， 妇 是 在 处 理 序列 的 最 终 元 素 xk# 之 后 获得 的 最 
终 外 部 隐藏 状态 xr 。 我 们 将 此 表示 如 下 : 
ET ed 
Ve = Cr, 
Un = h; 
3. 上 下 文 向 量 
上 和 下文 回 量 本 身 的 概念 束 是 简明 地 表示 源 语言 的 句子 内 容 ,， 而 且 与 如 何 初始 化 编码 器 状态 (用 
FHR) 相 比 ， 上 下 文 向 量 实际 上 成 为 了 解码 器 LSTM 的 初始 状态 。 也 就 是 说 ，LSTM 解码 器 
不 以 初始 状态 为 零 开 始 ， 而 是 以 上 下 文 回 量 作 为 其 初始 状态 。 
4. 解码 器 
解码 器 负责 将 上 下 文 同 量 解码 为 符合 期 望 的 翻译 内 容 。 我 们 的 解码 器 也 是 LSTM 网 络 ， 尽 管 
编码 器 和 人 解码 器 可 以 共享 同一 组 权重 值 ,但 通常 情况 下 最 好 让 编码 器 和 人 解码 器 使 用 两 个 不 同 的 网 络 。 
这 样 就 增加 了 模型 中 的 参数 数量 ， 使 我 们 能 够 更 有 效 地 学 习 翻 译 。 
首先 ， 解 码 器 的 状态 使 用 上 下 文 回 量 初 始 化 ，v = {vc，vhn}， 如 下 所 示 : 
Co = Ve 


hg = v, 


XE, cg, hg € LSTMaec. 
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这 个 (v) 是 连接 编码 器 和 解码 器 的 关键 链接 ， 以 形成 端 到 端的 计算 链 ， 而 且 这 是 解码 器 关于 
源 语句 层面 的 唯一 信息 。 
然后 ， 计 算 行 翻译 句子 的 第 闫 个 预测 ， 如 下 所 示 : 


-1 -2 
Cms hm = LSTMae (ye? | v, yl, y, .., y 8" 2) 


Jm — sof tmax(Wsorttmax X hm + bsoftmax) 


图 11-13 显示 了 完整 的 神经 网 络 机 器 翻译 系统 , 其 中 详细 说 明了 编码 器 中 的 LSTM 细胞 如 何 连 
接 到 解码 器 中 的 LSTM 细胞 ， 以 及 softmax 层 如 何 用 于 输出 预测 。 


解码 器 (Decoder) 


编码 器 (Encoder) 


前 一 个 单词 成 为 下 一 个 预测 单词 的 输入 〔 例 如， 解码 器 
EXE 中 的 输入 “T" 给 定时 ， 将 产生 单词 -sent 


Ich ging nach Hause 


源 语言 句子 


11-13 ”基于 LSTM 的 编码 器 架构 


11.5 ”神经 网 络 机 器 翻译 (NMT) 系统 的 前 期 准备 工作 


本 节 我 们 将 讨论 有 关 神 经 网 络 机 器 翻译 (NMT) 系统 训练 和 预测 数据 方面 的 具体 准备 过 程 。 
首先 ， 讨 论 如 何 准备 训练 数据 〈 源 语句 和 目标 语句 对 ) 来 训练 神经 网 络 机 器 翻译 系统 ， 然 后 输入 给 
定 的 源 语句 以 产生 该 句子 的 翻译 内 容 。 


11.5.1 ”训练 阶段 


€ (Ichging nach Hause , I went home) 

€ (Sie hatin der Schule gewartet , She was waiting at school) 

我 们 的 数据 集中 有 N 对 这 种 形式 的 句子 对 。 如 果 训 练 一 个 非常 好 的 翻译 模型 ， 则 N 需要 以 数 
白 万 规模 计 。 随 看 训练 数据 的 增加 ， 也 意味 看 训练 用 时 的 增加 。 
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接 下 来 ， 我 们 将 介绍 两 个 特殊 标记 : <s> 和 </ s>。<s> 标 记 表 示 句 子 的 开头 ， 而 </ s> 表 示 句 子 
的 结尾 。 现 在 ， 上 面 的 示例 看 起 来 是 这 样 的 : 


€ (<s> Ich ging nach Hause </s> , <s> I went home </s>) 


€ (<s> Sie hat in der Schule gewartet </s> , <s> She was waiting at school </s>) 


最 后 ， 我 们 将 使 用 </ s> 标 记 填 充 句 子 ， 使 得 源 语句 具有 固定 长 度 ， 比 如 其 长 度 为 L; 目标 语句 
也 需要 有 固定 长 度 ， 比 如 其 固定 长 度 为 M。 这 里 ， 工 和 M 不 需要 相等 。 此 步骤 导致 以 下 结 末 : 


€ (<s> Ich ging nach Hause </s></s></s> , <s> I went home </s></s></s>) 


€ (<s> Sie hat in der Schule gewartet </s> , <s> She was waiting at school </s>) 

如 果 人 句子 的 长 度 大 于 工 或 M， 则 将 其 截 短 为 适合 的 长 度 ， 然 后 句子 通过 一 个 标记 占 来 获取 标 
记 化 的 词 。 在 这 里 ， 我 们 忽略 了 第 二 个 元 组 (一 对 句子 ) ， 因 为 两 个 元 组 的 处 理 类 似 。 

(['«s»' , 'Ich' , 'ging' , "nach" , 'Hause' , '«/s»' , '«/s»' , '«/s»'] , ['«s»' , 
"I" 2 "yent! .'home' , Ta . F"ecfs5s* ea 

需要 说 明 的 是 ， 将 句子 固定 长 度 并 不 是 必须 的 ， 因 为 LSTM 能 够 处 理 动态 序列 大 小 。 将 句子 
固定 长 度 会 有 助 于 我 们 对 句子 进行 批 处 理 ， 而 不 用 逐个 处 理 。 


11.5.2” 反 转 源 语 句 


下 面 ， 我 们 将 对 源 语 句 采 取 一 些 特殊 的 策略 。 例 如 ， 在 源 语言 中 有 人 句子 ABC， 我 们 希望 将 其 
翻译 成 目标 语言 中 的 apye, HARRUA, EAT ABC 被 视 为 CBA， 这 意味 看 为 了 将 ABC f 
译 为 upyp， 我 们 需要 给 出 CBA。 这 显著 改善 了 模型 的 性 能 ， 特 别 是 当 源 语言 和 目标 语言 共享 相同 
的 句子 结构 时 〈 如 主 - 谓 - 宾 ) 。 

让 我 们 试 着 去 理解 这 样 做 为 什么 会 有 所 帮助 , 主要 是 它 有 助 于 在 编码 器 和 解码 器 之 间 建 立 恨 好 
的 通信 。 从 前 面 的 例子 开始 ， 将 源 语 句 和 目标 语句 连接 起 来 : 

ABCafyo 

如 果 计 算 从 A 到 a 或 B 到 B 的 距离 〈 即 分 隔 两 个 词 的 词 数 ) ， 那 么 它们 将 是 相同 的 。 但 是 ， 

当 反 转 源 语句 时 ， 请 考虑 这 一 点 ， 如 下 所 示 : 
CBAapyo 

这 里 ，A 非常 接近 w， 依 此 类 推 。 另 外 ， 要 建立 恨 好 的 翻译 ， 一 开始 就 建立 恨 好 的 沟通 非常 重 
要 ， 这 可 能 有 助 于 神经 网 络 机 器 翻译 系统 通过 这 个 简单 的 策略 来 改善 其 性 能 。 

现在 ， 我 们 的 数据 集 变 为 : 

[SS , *Hause' , "hach" , "ging" , 'Ich*' , ay] , [*«s5* , 


'IT' ; 'went' , 'home' 5 1</s>' ' '"c/s»' : '«/s»']) 


接 下 来 ， 对 于 学 习 的 词 向 量 : Emb, M Embr， 我 们 用 相应 的 词 向 量 替换 每 个 词 。 
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另 一 个 好 处 是 我 们 的 源 语句 以 <s> 标 记 结 束 ， 目 标语 句 以 <s> 标 记 开 头 ， 因 此 在 训练 期 间 ， 我 
们 不 必 再 单独 做 任何 特殊 的 处 理 来 建立 源 语句 结尾 和 目标 语句 开头 之 间 的 关联 。 

值得 注意 的 是 ,， 反 转 源 语句 步骤 只 是 相对 于 主观 预 处 理 步 又 而 言 , 对 于 某 些 翻译 任务 可 能 不 是 
必需 的 。 例 如 ， 如 果 翻 译 任务 是 从 日 语 (通常 是 主语 -宾语 -动词 格式 ) 翻译 成 菲律宾 语 〈 通 常 是 动 
词 -主语 -宾语 格式 ) ， 那 么 反 转 源 语句 可 能 会 造成 “伤害 ”而 不 是 帮助 。 


11.5.3 ”测试 阶段 


在 测试 时 ， 我 们 只 有 源 语 言 句 子 ， 没 有 目标 语句 ， 我 们 像 在 训练 阶段 所 做 的 那样 准备 源 数据 。 接 
下 来 ， 通 过 将 解码 右 的 最 后 一 个 预测 词 作为 下 一 个 输入 进行 反馈 ， 以 未 字 翻 译 并 获得 对 应 输出 。 前 先 
将 <s> 标 记 送 到 解码 器 来 触发 预测 过 程 。 下 和 面 ， 我 们 将 讨论 给 定 源 语句 的 具体 训练 过 程 和 预测 过 程 。 

1. 训练 神经 网 络 机 器 翻译 

现在 我 们 已 经 定义 了 神经 网 络 机 器 翻译 架构 和 预 处 理 的 训练 数据 ,训练 模型 就 相对 简单 了 。 在 
这 里 ， 我 们 将 定义 和 给 出 《〈 见 图 11-140. 用 于 训练 的 详细 过 程 。 


1- 2 3 M True Target 
Yr =<S> Y y y 
\ À 1 Words 


Predicted 
Target Words 


XS xU "" X! mee» «S» y? Pr y Mtn 


11-14 神经 网 络 机 器 翻译 系统 训练 过 程 


(1) 如 前 所 述 ， 预 处 理 项 : (xg yr). 

(2) 将 xs 提供 给 STM S 并 计算 条 xs 件 下 的 v. 

(3) H v 初始 化 LSTMeuee。 

(4) 利用 来 自 LSTMaec 的 输入 句子 xs 预 测 (9)z = (C9). 0). (了)7T,…, (了 )7}。 其 中 目标 词汇 表 
v 中 的 第 mm 个 词 的 预测 计算 如 下 : 


(9)7 = sof tmax(Wsortmaxlt T bsoftmax) 


(mw?) 


RS a ^ Jk P —1 
wP = argmaxqayneyP (OE ? 1v, O, O, O, = (9 9) 
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这 里 w 了 下 代表 m 位 置 的 最 佳 目标 词 。 

(5) 计算 损失 : 58 m br ET Toc is] (9) p RU [8] — bz ELE] Sc bain] yp 2 IRIS] 4 2S AZ XU - 

(6) 优化 LSTM。 、LSTM， f softmax 层 的 损失 。 

2. 利用 神经 网 络 机 器 翻译 推理 

推理 与 神经 网 络 机 器 翻译 的 训练 过 程 略 有 不 同 〈 见 图 11-15) 。 由 于 在 推理 时 没有 目标 语句 ， 
因此 我 们 需要 一 种 在 编码 阶段 结束 时 触发 解码 器 的 方法 。 这 与 我 们 在 第 9 章 “ 利 用 LSTM 实现 图 
像 字 幕 自 动 生成 ”中 所 做 的 图 像 主 题 项 目 有 相似 之 处 ,在 那个 项 目 中 , 将 <SOS> 标 记 附 加 到 主题 的 
开头 ， 以 表示 主题 的 开始 ，<EOS> 表 示 主 题 的 结束 。 

我 们 可 以 通过 将 <s> 作 为 解码 器 的 第 一 个 输入 ， 然 后 将 预测 作为 输出 ， 并 把 最 后 一 个 预测 作为 
下 一 个 输入 提供 给 NMT. 


(1) 如 前 所 述 ， 预 处 理 项 : xg. 

(2) 将 xs 推送 给 LSTM。 -并 计算 xs 条 件 下 的 v。 

(3) H v 初始 化 LSTMuee。 

(4) 对 于 初始 预测 步骤 ， 通 过 调整 (人 + = <s> 和 v 的 预测 来 预测 (分子 。 

(6) 对 于 后 续 时 间 步 长 ， 当 (JJ5z#</ s> 时 ， 通 过 调整 {( 人 人 ) 丈 (9)079, (9072, ., «RH v 
的 预测 来 预测 (中 +。 


y? y? "o" y," Predicted 
Target Words 


X. xU ".". Xs! =<5> <5> y^ "TT. yl 


R 11-15 利用 神经 网 络 机 器 翻译 进行 推理 


11.0 BLEU 评分 一 一 评估 机 器 翻译 系统 


11.6.1 BLEU (Si 


BLEU (Bilingual Evaluation Understudy， 双 语 评估 基础 ) 是 用 于 评估 从 一 种 自然 语言 被 机 器 翻 

译 到 另 一 种 自然 语言 的 文本 质量 的 算法 。 质 量 被 认为 是 机 器 输出 与 人 类 输出 之 间 的 一 致 性 关系 反映 : 

“机 器 翻译 越 接 近 专 业 人 工 翻译 , 质量 就 越 好 ”一 一 这 是 BLEU 背后 的 核心 理念 。BLEU 是 首 批 声 
称 与 人 工 质量 判断 高 度 相关 的 指标 之 一 ， 并 且 仍 然 是 最 流行 的 日 动 化 和 廉价 评估 指标 之 一 。 
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通过 与 一 组 高 质量 的 参考 译文 进行 比较 , 计算 各 个 翻译 片段 (通常 是 句子 ) 的 得 分 ， 然 后 在 整 
个 语料库 上 对 这 些 得 分 进行 平均 , 以 便 对 整体 翻译 质量 进行 评估 。 可 理解 性 或 语法 正确 性 未 被 考虑 。 

BLEU 的 输出 始终 是 介 于 0 和 1 之 间 ， 该 值 表 示 候 选 文本 与 参考 文本 的 相似 程度 ， 得 分 越 接近 
1 表示 候选 文本 与 参考 文本 的 相似 度 越 高 。 很 少 有 人 工 翻 译 得 分 会 达到 1， 因 为 这 表明 候选 项 与 其 
中 一 个 参考 译文 相同 。 由 于 这 个 原因 , 其 实 翻译 评分 是 不 需要 达到 1 分 的 。 因 为 有 更 多 的 机 会 匹配 ， 
添加 额外 的 参考 翻译 将 增加 BLEU 得 分 。 笔 者 也 认为 ， 对 于 某 些 语言 翻译 而 言 ， 即 使 BLEU 得 分 
为 1 ， 也 很 难说 本 次 翻译 一 定 是 质量 最 高 的 ， 尤 其 是 在 一 些 哲 学 、 心 理学 领域 的 翻译 ， 因 为 语言 类 
的 翻译 很 难 通过 量化 来 寻找 最 佳 。 但 是 ， 既 然 我 们 通过 人 工 智 能 算法 的 角度 去 实现 ， 量 化 工作 肯定 
是 需要 的 ， 因 而 以 参考 文本 为 最 佳 翻译 文本 作为 标准 是 非常 有 必要 的 。 


11.6.2 BLEU 度量 


一 般 情 况 下 ， 一 个 给 定 的 源 语言 句子 会 存在 很 多 个 “完美 ”的 翻译 候选 句子 。 有 了 时候， 即使 我 
们 使 用 相同 的 词 ， 这 些 对 应 翻译 的 词 选 择 或 词 顺序 也 可 能 是 不 同 的 。 但 是 ,我 们 人 类 可 以 很 清晰 地 
识别 好 的 翻译 和 差 的 翻译 。 例 如 ， 下 面 给 出 了 两 个 中 文 源 语 句 的 英文 候选 翻译 。 

【示例 1] 


Candidate 1: It is a guide to action which ensures that the military always obeys 
the commands of the party. 

Candidate 2: 

It is to insure the troops forever hearing the activity guidebook that party 


direct. 


虽然 它们 似乎 有 同一 个 主语 ， 但 是 它们 的 翻译 质量 却 明显 不 同 。 为 了 比较 ， 我 们 提供 以 下 三 个 
相同 源 语句 的 人 工 翻译 。 


Reference 1: It is a guide to action that ensures that the military will forever 
heed Party commands. 

Reference 2: 

It is the guiding principle which guarantees the military forces always being 
under the command of the Party. 

Reference 3: It is the practical guide for the army always to heed the directions 


of the party. 


这 里 , 我 们 可 以 很 清楚 地 看 到 ， 候 选 句 子 1 与 候选 句子 2 相 比 , 在 和 上 面 这 三 个 参考 译文 句子 
共享 单词 和 短语 数量 方面 更 占 优势 。 对 于 共享 单词 或 短语 方面 的 量化 说 明 , 我 们 会 在 后 面 单独 进行 
说 明 。 RE, 我 们 继续 给 出 候选 句子 与 各 个 参考 译文 的 具体 共享 内 容 (按照 候选 句子 1 的 单词 或 短 
语 的 顺序 逐个 列 出 ) : 候选 句子 1 与 参考 译文 1 共享 “Itis a guide to action”， 与 参考 译文 2 共享 

“which”, 与 参考 译文 共享 “ensures that the military”, 与 参考 译文 2 、 参 考 译文 3 同时 共享 “always”， 
与 参考 译文 1 共享 “commands”， 与 参考 译文 2 共享 “of the party”。 注 意 ， 这 里 提 到 的 共享 单词 
或 短语 是 不 区 分 大 小 写 的 。 相 比 之 下 ， 候 选 句 子 2 则 表现 出 更 少 的 匹配 ， 应 用 效果 不 佳 。 
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显然 ， 利 用 程序 我 们 可 以 简单 地 比较 每 个 候选 翻译 和 参考 翻译 之 间 的 n-gram 匹配 ， 来 对 候选 
gr 1 和 候选 句子 2 进行 打分 ， 且 候选 句子 1 的 得 分 高 于 候选 句子 2 的 得 分 。 
BLEU 度量 工具 的 主要 任务 是 对 候选 翻译 的 N 元 (n-gram) 与 参考 翻译 的 N 元 (n-gram) 进 
行 比较 并 计算 匹配 数 ， 而 这 些 匹 配 其 实 与 词 或 短语 在 句子 中 的 位 置 无 关 。 这 样 的 结果 是 ,匹配 数量 
越 多 ， 就 说 明 其 翻译 效果 越 好 。 为 了 简单 起 见 ， 我 们 先 从 Unigram〔 一 元 模型 或 单个 词 模型 ) 的 匹 
配 计 算 情 况 入 手 。 


1. 精确 度 


为 了 方便 介绍 计算 精确 度 ， 这 里 以 Unigram 为 例 ， 只 需要 计算 在 任何 参考 翻译 中 出 现 的 候选 
翻译 词 〈 当 然 是 一 元 的 ) 数量 ， 然 后 除 以 候选 翻译 中 的 词 总 数 即 可 ， 其 表达 式 如 下 : 


2, (unigrame(Candidate]) IsFoundInR ef (unig ram) 
ICandidate| 


我 们 把 上 式 换 一 种 更 加 数学 化 的 式 子 来 表示 : P =Z 


Precision — 


这 里 ，P 为 精确 度 ，m 为 候选 项 中 词 出 现在 参考 译文 中 的 个 数 ，w1 为 候选 项 中 词 的 个 数 。 
那么 我 们 结合 【示例 2】 来 看 一 下 候选 项 的 Unigram 精确 度 情况 。 


【示例 2】 


Candidate: the the the the the the the. 
Reference 1: The cat is on the mat. 


Reference 2: There is a cat on the mat. 


【示例 2] 中 候选 项 的 Unlgram 精确 度 ; y 
— — — 


虽然 上 面 候选 翻译 中 几乎 不 存在 具有 实际 意义 的 词 与 任 一 参考 译文 中 的 词 相同 , 但 是 这 个 得 分 
堪 称 完美 。 

通过 【示例 2】 中 精确 度 的 计算 情况 ， 我 们 可 以 发 现 ， 机 器 翻译 系统 存在 过 度 生 成 “合理 的 ” 
词 的 可 能 性 ， 进 而 导致 没有 实际 意义 但 精确 度 却 很 高 的 候选 翻译 的 出 现 。 结 合 【 示 例 2】 给 出 的 情 
况 ， 问 题 其 实 已 经 很 明显 了 : 在 识别 出 匹配 的 候选 词 后 ， 应 该 认定 相应 参考 词 已 经 被 用 尽 ， 否 则 就 
会 出 现 上 面 【示例 2】 中 候选 翻译 精确 度 看 起 来 非常 完美 但 实际 上 几乎 没有 任何 指导 意义 的 情况 。 
因此 ,我 们 需要 对 精确 度 做 进一步 的 修正 。 为 了 计算 这 一 点 ， 首 先 需要 计算 词 在 任何 一 个 参考 翻译 
中 出 现 的 最 大 次 数 ， 也 就 是 说 ,对 于 候选 翻译 中 的 每 个 词 ， 在 任何 参考 翻译 中 都 需要 取 其 最 大 总 计 
数 mmax; 然后 用 参考 最 大 总 计数 来 裁剪 每 个 候选 词 的 总 数 ， 将 这 些 裁剪 的 计数 累加 ， 并 除 以 候选 
WKAR RRB) 。 有 具体 可 以 用 下 面 的 式 子 来 表达 : 

| County (word) 


y m 
Wt 
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Countcip(word) = Min(Count(word), MaxRef Count(word)] 


wt € Count (word 
"x: (word) 
iX, Count(word)X] v F m, MaxRefCount(word)*] v FMmax» C € (Candidates]. 
下 面 结合 示例 的 情况 做 进一步 的 解释 。 
结合 【示例 2】 的 情况 做 进一步 解释 ， 单 词 “the” 在 参考 译文 1 中 出 现 了 两 次 ， 在 参考 译文 2 
中 出 现 了 一 次 , 则 max 为 2。 对 于 候选 翻译 ,每 个 词 的 统计 数 mw 被 裁剪 到 该 词 的 最 大 计数 rnax 上 。 
在 【示例 2】 中 ， 对 于 单词 “the” 而 言 ，mw=7，7mnax=2 ， 则 mw 被 裁剪 为 2， 以 此 类 推 ， 其 他 词 
的 裁剪 ?mw 也 是 如 此 。 然 后 ， 在 将 最 后 候选 翻译 中 不 同 词 对 应 的 mw 累加 求 和 后 ， 再 除 以 候选 翻译 中 
所 有 词 的 统计 数 。 那 么 ， 显 然 【 示 例 2】 中 候选 翻译 修改 后 的 Unigram 精确 度数 值 为 : 


P 三 一 
7 


在 【示例 1】 中 , 候选 句子 1 修正 后 的 Unigram 精确 度 达 到 了 17/18: 而 候选 句子 2 则 为 8/14. 
同样 ，【 示 例 2】 中 修正 的 Unigram 精确 度 为 /7， 远 低 于 修正 前 的 Unigram 精确 度 C73 7/7) 。 

对 于 任何 n 而 言 ,修正 后 的 n-gram 精确 度 计算 情况 类 似 ， 需 要 整理 所 有 候选 n-gram 计数 及 其 
对 应 的 最 大 参考 翻译 计数 。 将 候选 翻译 计数 裁剪 到 参考 翻译 最 大 值 〈 最 大 计数 ) 进行 求 和 ， 并 除 以 
候选 n-gram 的 总 数 。 在 【示例 1】 中 ， 候 选项 1 的 Bigram《〈 二 元 模型 或 双 词 模型 ) 修正 精确 度 达 
到 了 10/17， 而 翻译 质量 较 差 的 候选 项 2 的 修正 Bigram 精确 度 为 /13。 而 在 【示例 2】 中 ， 候 选项 
的 Bigram 修正 精确 度 是 0， 这 个 结果 确实 让 我 们 感到 有 些 震 导 。 

上 面 给 出 的 是 相对 简单 的 Unigram 和 Bigram 情况 下 的 精确 度 ， 而 对 于 N-gram 修正 后 的 精确 
度 而 言 ， 我 们 可 以 用 下 面 的 式 子 来 表达 ， 其 评分 情况 包含 了 翻译 的 两 个 方面 : 充分 性 和 流畅 性 。 其 
实 ， 大 我 们 使 用 与 参考 译文 相同 的 词 〈 一 元 模型 ) 的 翻译 ， 则 是 倾 问 于 满足 翻译 质量 上 的 充分 性 ， 
而 N-gram 匹配 的 越 长 ， 则 翻译 质量 上 的 流畅 性 越 强 。 这 里 N 的 取 值 应 根据 具体 情况 而 定 ， 以 便 兼 
顾 翻 译 质 量 的 充分 性 和 流畅 性 这 两 个 方面 。 

- 2 ce(Candidates) 24n-gramec COUnt (i; (n — gram) 
2. Cre(Candidates) Dn gramec! Countaip (n 一 gram) 


Dn 


11.6.3 BLEU 的 调整 和 惩罚 因子 


BLEU 评分 的 一 个 挑战 是 ， 它 们 倾 问 于 支持 简短 的 翻译 多 子 ， 即 使 使 用 修正 后 的 精确 度 ， 也 能 
产生 非常 高 的 评分 。 例 如 ， 这 里 我 们 给 出 上 述 相同 参考 译文 的 另 一 个 候选 翻译 。 
【示例 3] 


the cat 


那么 ， 该 候选 翻译 的 Unigram 修正 精确 度 为 : P = = 十 了 二 1， 因 为 单词 “the” 和 单词 “cat” 
在 候选 翻译 中 均 出 现 过 一 次 ， 所 以 这 里 单词 总 数 为 2。 
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同样 ， 我 们 继续 下 去 ， 会 发 现 该 候选 翻译 的 Bigram 精确 度 也 是 1 。 为 了 解决 这 个 问题 ， 有 人 
指出 精确 度 要 与 召回 率 一 起 使 用 ， 那 么 本 示例 中 候选 翻译 的 Unigram 召回 率 就 是 3/6 或 207。 问 题 
是 BLEU 会 考虑 多 个 参考 译文 , 每 个 参考 译文 都 可 以 选择 使 用 不 同 的 词 来 翻译 同一 个 词 源 。 另 外 ， 
一 个 好 的 候选 翻译 只 会 选择 使 用 (召回 ) 这 些 可 能 的 词 之 一 ， 而 不 是 全 部 。 实 际 上 ， 召 回 所 有 选择 
的 词 会 导致 翻译 效果 更 糟糕 。 

【示例 4] 


Candidate always invariably perpetually do. 


Candidate always do. 
always do. 


Reference invariably do. 


E ER E E 加 


1 
2 
Reference 1: 
z 
L 


Reference perpetually do. 


我 们 可 以 发 现 , 第 一 个 候选 翻译 从 参考 译文 中 召回 更 多 的 单词 , 但 是 明显 比 第 二 个 候选 翻译 表 
现 的 差 。 因 此 ， 在 所 有 参考 单词 集合 上 进行 简单 计算 召回 率 并 不 是 一 个 好 的 度量 标准 。 
为 了 解决 上 述 问题 ， 我 们 这 里 引入 了 简短 惩罚 (Brevity Penalty, BP f) 。 设 1 为 参考 语料库 
的 总 长 度 ,c 为 翻译 语料库 的 总 长 度 ， 如 果 c 和 r， 则 应 用 简短 惩罚 ， 定 义 为 eG- 旨 。 在 多 个 参考 句子 
的 情况 下 ,r 被 认为 是 长 度 最 接近 候选 名 长 度 的 相关 句子 的 长 度 总 和 。 在 2009 年 之 前 NIST 评估 所 
使 用 的 度量 标准 版 本 中 ， 就 使 用 了 最 短 的 参考 语句 。 简 短 惩罚 的 计算 方法 如 下 : 
1 dide 
da [a9 ifc r 


11.6.4 BLEU 得 分 总 结 


接 下 来 ,为 了 计算 BLEU 分 数 ， 我 们 将 首先 对 一 组 不 同 的 n(n=1,2,3,...,N) 值 计 算 几 个 不 同 
的 修正 N-gram 精确 度 ， 然 后 计算 N-gram 精确 度 的 几何 平均 值 ， 具 体 公 式 如 下 : 
N 


BLEU = BP :exp( ? wnlogpn) 
这 里 ，wn 是 修正 N-gram 精确 度 p 的 权重 值 。 在 默认 情况 下 ， 所 有 N-gram 的 值 都 使 用 相等 的 
权重 值 。 总 之 ，BLEU 计算 修正 N-gram 精确 度 ， 并 以 简单 惩 避 因子 惩罚 修正 的 N-gram 精确 度 ， 
该 修正 的 N-gram 精确 度 避 免 了 无 意义 句子 具有 潜在 的 高 精确 度 值 。 


11.7 ”完整 实现 神经 网 络 机 器 翻译 一 一 德语 到 英语 翻译 
现在 我 们 将 实现 一 个 真正 的 神经 网 络 机 器 翻译 (NMT) 系统 ， 这 里 使 用 原始 的 TensorFlow 操 


作 变 量 来 实现 神经 网 络 机 器 翻译 。 该 部 分 代码 存在 于 chll/11 neural machine translation.ipynb 文件 
中 。 这 里 之 所 以 使 用 原始 的 TensorFlow 操作 变量 方法 ， 是 因为 一 旦 我 们 掌握 了 从 零 开始 学 习 实现 
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机 器 翻译 而 不 借助 于 任何 辅助 函数 ， 那 么 我 们 将 能 够 快速 学 习 诸 如 序列 到 序列 (seq2seq) 之 类 的 
库 。 另 外 ， 使 用 原始 TensorFlow 操作 变量 来 实现 序列 到 序列 模型 的 资源 其 实 很 少 ， 而 关于 如 何 使 
用 seq2seq 库 进 行 机 器 翻译 的 在 线 资 源 却 非常 多 。 


11.7.1 关于 样本 数据 


我 们 使 用 https://nlp.stanford.edu/projects/nmt/ 上 提供 的 英语 - 德语 句子 对 ， 上 面 有 大 约 450 万 
个 句子 对 可 用 。 由 于 考虑 计算 可 行 性 ,我们 仅 使 用 250 000 个 句子 对 。 词 汇 有 50000 个 常用 的 英语 
单词 和 50000 个 常见 的 德语 单词 ,而 在 词汇 表 中 未 找到 的 单词 将 被 葵 换 为 特殊 标记 <unk>, 在 这 里 ， 
我 们 将 列 出 在 数据 集中 存在 的 一 些 例句 : 


DE: Das GrofBunternehmen sieht sich einfach die Produkte des kleinen 
Unternehmens an und unterstellt so viele Patentverletzungen , wie es nur geht . 

EN: The large corporation will look at the products of the small company and 
bring up as many patent infringement assertions as possible . 

DE: In der ordentlichen Sitzung am 22. September 2008 befasste sich der 
Aufsichtsrat mit strategischen Themen aus den einzelnen Gescháftsbereichen wie der 
Positionierung des Kassamarktes im Wettbewerb mit auferbórslichen 
Handelsplattformen , den Innovationen im Derivatesegment und verschiedenen 
Aktivitáten im Nachhandelsbereich 

EN: At the regular meeting on 22 September 2008 , the Supervisory Board dealt 
with strategic issues from the various business areas ,such as the positioning of 
the cash market in competition with OTC trading platforms , innovation in the 


derivatives segment and various post 44AT44-4$4AT44 trading activities . 


11.7.2. 预 处 理 数据 


按照 代码 文件 中 的 操作 ， 下 载 了 训练 数据 (train.en 和 train.de) 后 ， 让 我 们 来 看 看 这 些 文件 中 
有 什么 内 容 。 接 着 ， 我 们 将 从 这 些 样本 数据 的 大 型 语料库 中 选择 250,000 个 句子 对 ， 同 时 从 训练 数 
据 中 收集 100 个 句子 作为 测试 数据 ,这 两 种 语言 的 词汇 表 可 以 在 vocab.50K.en.txt 和 vocab.50K.de.txt 
中 找到 。 

对 于 词 回 量 学 习 《〈 如 果 单 独 执行 ) ， 反 转 句子 是 可 选 的 ， 因 为 反 转 句子 不 会 改变 给 定单 词 的 上 
FX, 所 以 我 们 将 使 用 以 下 简单 的 标记 化 算法 将 句子 标记 为 单词 。 我 们 要 在 各 种 标点 符号 之 前 引入 
空格 ， 以 便 将 它们 标记 为 单个 元 素 ， 然 后 对 于 未 在 词汇 表 中 发 现 的 任何 单词 ， 会 用 一 个 特殊 的 标记 
<uUnk> 蔡 换 。is_source 参数 告诉 我 们 是 正在 处 理 源 语句 (s source = True) 还 是 在 处 理 目标 语句 

(is source = False) : 


def split to tokens(sent,is source): 


此 函数 接受 句子 (来 自 源 语言 或 目标 语言 》 并 使 用 各 种 步骤 来 预 处 理 该 句子 (如 删除 标点 符号 ) 
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global src unk count, tgt unk count 


# 删除 标点 符号 并 给 出 换行 符 


sent = sent.replace(',',' ,') 
sent = sent.replace('.',' .') 
sent = sent.replace('Mn',' ') 


sent toks - sent.split(' ') 
for t i, tok in enumerate(sent toks): 
IL 158 SOUFGCG: 
# src dictionary 包含 源 词汇 表 中 word - »wordID 的 映射 
if tok not in src dictionary.keys(): 
if not len(tok.strip())-20: 
sent toks[t i] = '«unk»"' 


src unk count += 1 


else: 
#tgt dictionary 包含 目标 词汇 表 中 word - »wordID 的 映射 
if tok not in tgt dictionary.keys(): 
if not len(tok.strip())--0: 
sent toks[t i] = '«unk»' 
# 打印 (tok) 
tgt unk count += 1 


return sent toks 


11.7.3 ”学习 词 回 量 


接 下 来 ， 我 们 将 继续 学 习 词 回 量 。 要 学 习 词 问 量 ， 我 们 需要 使 用 连续 词 袋 CCBOWO 模型 ， 也 
可 以 尝试 其 他 词 品 量 学 习 的 方法 ， 如 GloVe。 在 这 里 不 再 贴 出 相关 代码 ， 有 具体 可 以 查看 代码 文件 : 
ch11/1word2vec.py《〈 其 中 给 出 了 一 些 学 习 词 回 量 的 代码 ) 。 


German Word Embeddings 


Nearest to In: in, Aus, An, Neben, Bei, Mit, Trotz, Auf, 

Nearest to war: ist, hat, scheint, wáre, hatte, bin, waren, kam, 

Nearest to so: verbreitet, eigentlich, ausserdem, ziemlich, Rad-,zweierlei, 
wollten, ebenso, 

Nearest to Schritte: Meter, Minuten, Gehminuten, Autominuten, km,Kilometer, 
Fahrminuten, Steinwurf, 

Nearest to Sicht: Aussicht, Ausblick, Blick, Kombination, Milde,Erscheinung, 


Terroranschláge, Ebenen, 
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English Word Embeddings 


Nearest to more: cheaper, less, easier, better, further, greater,bigger, 
More, 

Nearest to States: Kingdom, Nations, accross, attrition, Efex,Republic, 
authoritative, Sorbonne, 

Nearest to Italy: Spain, Poland, France, Switzerland, Madrid,Portugal, 
Fuengirola, 51, 

Nearest to island: shores, Principality, outskirts, islands, skyline,ear, 
continuation, capital, 


Nearest to 2004: 2005, 2001, 2003, 2007, 1996, 2006, 1999, 1995, 


EMERARA, AANA Aa, 53 — Bb FEE f HT UC VII ZEE d a E 


11.7.4 JEX WAD Ra MARAD RS 


我 们 将 使 用 两 个 单独 的 LSTM 作为 编码 器 和 解码 器 。 


首先 定义 以 下 超 参数 。 

€ batch size: 设置 批量 大 小 时 必须 非常 小 心 。 和 神经 网 络 机 器 翻译 在 运行 时 可 能 需要 非常 多 
的 内 存 。 

€ num nodes: 这 是 LSTM 中 隐藏 单元 的 数量 。 较 大 的 超 参数 num nodes 将 导致 更 好 的 性 能 
和 更 高 的 计算 成 本 。 


€ enc num unrollings: 将 其 设置 为 源 语 名 中 的 单词 数量 。 我 们 将 在 一 个 单独 的 计算 中 为 名 
子 的 完整 长 度 展 开 LSTM。 虽然 enc num unrollings 越 高 ， 模 型 的 性 能 越 好 ， 但 是 这 会 降 
低 算 法 速度 。 

€ dec num unrollings: 将 其 设置 为 目标 语句 中 的 单词 数量 。dec_num unrollings 越 高 ， 模 型 
的 性 能 表现 就 越 佳 ， 同 时 对 应 的 计算 成 本 也 就 越 高 。 

€ embedding size: 向 量 的 维 数 ， 对 于 使 用 词 向 量 的 大 多 数 实 际 问题 而 言 ，100~300 的 词 向 
量 大 小 就 足够 了 。 


# 我 们 通过 载 入 被 保存 的 词 癌 量 并 获取 列 大 小 来 设置 输入 大 小 


tgt emb mat = np.load('en-embeddings.npy') 
input size = tgt emb mat.shape[l] 


num nodes = 128 


batch size - 10 


# 展开 源 语言 和 目标 语言 的 句子 全 长 


enc num unrollings = 40 
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dec num unrollings - 60 


如 果 batch size 较 大 (在 标准 笔记 本 电脑 上 超过 20 个 ) ， 则 可 能 会 遇 到 诸如 计算 机 资源 耗 尽 的 
问题 。 在 这 种 情况 下 ， 应 减少 批量 大 小 并 重新 运行 代码 。 

接 下 来 , 我 们 将 定义 LSTM 和 softmax 层 的 权重 值 和 偏差 ， 使 用 编码 器 和 解码 器 变量 范围 来 使 
变量 的 命名 更 直观 ， 这 是 标准 的 LSTM 细胞 ， 我 们 不 会 重复 权重 值 的 定义 。 

下 面 ， 我 们 定义 4 个 TensorFlow 的 占 位 符 进 行 训 练 。 


€ enc train inputs: 这 是 enc num unrollings 占 位 符 的 列表 ， 其 中 每 个 占 位 符 的 大 小 为 
[batch_size，input_size]， 用 于 将 一 批 源 语言 句子 提供 给 编码 器 。 

€ dec train inputs: 这 是 dec num unrollings 占 位 符 的 列表 ， 其 中 每 个 占 位 符 的 大 小 为 
[batch size，input size]， 用 于 提供 相应 批 次 的 目标 语言 句子 。 

€ dec train labels: 这 是 dec num unrollings 占 位 符 的 列表 ， 其 中 每 个 占 位 符 的 大 小 为 
[batch_size，vocabulary_size]， 包 含 偏 移 量 为 1 的 dec train inputs 的 单词 。 

€ dec train masks: 这 与 dec train inputs 的 大 小 相同 ， 并 且 屏 蔽 了 损失 计算 中 具有 </s> 标 签 
的 任何 元 素 。 这 很 重要 ， 因 为 有 许多 带 </s> 标 记 的 数据 点 ， 被 用 于 将 现 有 句子 填充 成 固定 
长 度 的 句子 。 


for ui in range(dec num unrollings): 
dec train inputs.append(tf.placeholder (tf.float32, 
shape-[batch size,input size], 
name-'dec train inputs $d'$ui)) 
dec train labels.append(tf.placeholder (tf.float32, 
shape-[batch size,vocabulary size], 
name = 'dec train labels $d'$ui)) 
dec train masks.append(tf.placeholder(tf.float32, 
shape-[batch size,l], 


name-'dec train masks $d'$ui)) 


for ui in range(enc num unrollings): 
enc train inputs.append(tf.placeholder (tf.float32, 
shape-[batch size,input size], 


name-'train inputs $d'$ui)) 


为 了 初始 化 LSTM 细胞 和 softmax 层 的 权重 值 , 我 们 将 使 用 Xavier 初始 化 , 由 Glorot 和 Bengio 
T 2010 年 在 他 们 的 论文 《Understanding the Difficulty of Training Deep Feedforward Neural Networks, 
Proceedings of the 13" International Conference on Artificial Intelligence and Statistics (2010)) "5| X. 
这 是 一 种 初始 化 技术 的 原理 ， 旨 在 绥 解 深度 网 络 的 梯度 消失 问题 ， 可 以 通过 TensorFlow 中 提供 的 
tf.contrib.layers.xavier _initializer0 变 量 初始 化 获得 。 有 具体 来 说 ， 在 Xavier 初始 化 中 ， 神 经 网 络 的 第 
j 层 的 权重 值 根据 均匀 分 布 U [a，b] 初 始 化 ， 其 中 a 是 最 小 值 ，b 是 最 大 值 。 
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w~ uE __* 


Jj 十 N(j+1) i Vn 十 Nj+1) 
这 里 , nw 是 第 j 层 的 大 小 。 


11.7.5 EX xmi e c YT A 


通过 定义 变量 和 输入 /输出 占 位 符 , 我 们 将 继续 定义 从 编码 器 到 解码 器 的 输出 计算 及 损失 函数 。 
对 于 输出 ， 首 先 计算 给 定 批 次 句子 中 所 有 单词 的 LSTM 细胞 状态 和 隐藏 状态 ， 这 是 通过 运行 for 
循环 语句 来 实现 的 ， 其 中 在 第 i KAAF, RIIE enc train inputs 中 输入 第 i 个 占 位 符 ， 从 第 i-1 
次 迭代 输入 细胞 状态 和 输出 隐藏 状态 。 enc lstm cell 函数 的 工作 方式 类 似 于 在 第 9 章 利用 LSTM 
实现 图 像 字 幕 目 动 生 成 中 用 到 的 Istm cell 函数 。 


# 运 代 更 新 编码 器 的 输出 和 状态 
for i in enc train inputs: 


output, state = enc lstm cell(i, output,state) 


接 下 来 , 我 们 同样 计算 整个 目标 语句 的 解码 器 的 输出 。 为 了 做 到 这 一 点 , 我 们 应 该 完成 前 面 代 
码 中 所 示 的 计算 , 以便 可 以 获得 v 来 初始 化 解码 器 状态 , 这 是 通过 调用 tf.control_dependencies(...) 
来 实现 的 。 因 此 ，with 语句 中 的 嵌 套 命令 仅 在 完成 计算 编码 器 输出 后 执行 。 

# 完 成 enc lstm cell 的 计算 后 ， 

# 计 算 解 码 器 的 输出 和 状态 


with tf.control dependencies([saved output.assign(output), 


saved state.assign(state)]): 


# Calculate the decoder state and output iteratively 
for i in dec train inputs: 
output, state = dec lstm cell(í(i, output, state) 
outputs.append (output) 


在 计算 解码 器 输出 之 后 ,我 们 将 使 用 LSTM 的 隐藏 状态 作为 层 的 输入 来 计算 softmax 层 的 logits。 
# 计 算 所 有 展开 步骤 的 解码 器 的 Logits 


logits = tf.matmul(tf.concat(axis-0, values-outputs), w) + b 
通过 计算 logits 可 以 计算 损失 。 注 意 ， 我 们 使 用 掩 码 来 掩盖 不 应 该 导致 损失 的 元 素 〈 附 加 的 元 
素 </ s> 使 得 句子 具有 固定 长 度 ) : 


loss batch = tf.concat(axis-0,values-dec train masks)* 
tf.nn.softmax cross entropy with logits v2( 


logits-logits,labels-tf.concat(axis-0,values-dec train labels)) 


loss = tf.reduce mean(loss batch) 
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与 前 几 章 不 同 ， 我 们 将 使 用 两 个 优化 器 : Adam 和 标准 随机 梯度 下 降 。 由 于 长 期 使 用 Adam 会 
产生 不 良 后 果 Cl BLEU 的 突然 波动 ) ， 因 此 我 们 使 用 Adam 来 获得 优化 的 良好 起 点 ， 然 后 从 那 
时 起 切换 到 SGD. 

with tf.variable scope('Adam'): 


optimizer — tf.train.AdamOptimizer(learning rate) 


with tf.variable scope('SGD'): 
sgd optimizer = tf.train.GradientDescentOptimizer(sgd learning rate) 


i4 Adam 的 裁剪 梯度 


gradients, v = zip(*optimizer.compute gradients(loss)) 
gradients, = tf.clip by global norm (gradients, 5.0) 


optimize = optimizer.apply gradients (zip (gradients, v)) 


# 计算 scp 的 裁剪 梯度 

sgd gradients, v = zip(*sgd optimizer.compute gradients (loss)) 

sgd gradients, = tf.clip by global norm(sgd gradients, 5.0) 

sgd optimize = optimizer.apply gradients (zip(sgd gradients, v)) 

我 们 将 使 用 以 下 语句 , 通过 确保 对 所 有 可 训练 变量 存在 梯度 ,确保 梯 度 正 确 地 从 解码 器 流 回 编 
[Dr o 


for (g i,v i) in zip(gradients,v): 


assert g i is not None, 'Gradient none for $s'$(v i.name) 


注意 , 与 之 前 的 练习 相 比 , 运行 神经 网 络 机 器 翻译 系统 (NMT ) 会 慢 得 多 , 而 在 单个 GPU E, 
可 能 需要 12 个 小 时 。 


11.7.6 ”神经 网 络 机 顺 翻 译 系 统 运 行 结果 《部 分 ) 的 展示 


我 们 在 10 000 步 后 获得 如 下 结果 。 


DE: &#124; Ferienwohnungen 1 Zi &4124; Ferienhäuser &#124; Landhäuser 
&1124; Autovermietung &#124; Last Minute Angebote ! ! 


EN (TRUE) :&#124; 1 Bedroom Apts &#124; Holiday houses &4124; Rural 
Homes &1124; Car Rental &#124; Last Minute Offers |! 


EN (Predicted): Casino Tropez &4124; Club &#124; Club &#124; 
Aparthotels Hotels &4124; Club &#124; Last Minute Offers &4124; Last 
Minute Offers &#124; Last Minute Offers &4124; Last Minute Offers 
&#124; Last Minute Offers ! «/s» 


DE: Wie hilfreich finden Sie die Demo 44AT44-44AT44 CD ? 
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EN (TRUE): How helpful do you find the demo CD ##AT##-##AT## ROM ? 
EN (Predicted): How to install the new version of XLSTAT ? «/s» 


DE: Das , Ladino di Fassa " ist jedoch mehr als ein Dialekt - es ist 


eine richtige Sprache . 


EN (TRUE):This is Ladin from Fassa which is more than a dialect : it 


is a language in its own right . 


EN (Predicted): The «unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk» 
«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk» 
«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk» 
«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk» 
«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk»«unk» 


«unk»«unk»«unk»«unk»«unk»«unk»«unk» 


DE: In der Hotelbeschreibung im Internet müßte die Zufahrt beschrieben 


werden . 
EN (TRUE): There are no adverse comments about this hotel at all . 


EN (Predicted): The «unk»«unk» is a bit of the «unk»«unk» . «/s» 


我 们 可 以 看 到 第 一 句 翻译 得 不 错 ， 但 第 二 句 翻译 得 很 差 。 
下 面 是 运行 100.000 步 后 获得 的 结果 。 


DE: Das Hotel Opera befindet sich in der Nahe des Royal Theatre , 


Kongens Nytorv , &apos; Stroget &apos; und Nyhavn . 


EN (TRUE): Hotel Opera is situated near The Royal Theatre , Kongens 
Nytorv , &quot; Strøget &quot; and fascinating Nyhavn . 

EN (Predicted):Best Western Hotel «unk»«unk» , «unk» , «unk» , 

«unk» , «unk» ,«unk» , «unk» , «unk» , «unk» , «unk» , «unk» , «unk» 
z «xunk» , «unk», «unk» , «unk» , «unk» , «unk» , «unk» , «unk» , 


«unk» , «unk» ,«unk» , «unk» , «unk» , «unk» , «unk» , «unk» , 


DE: Alle älteren Kinder oder Erwachsene zahlen EUR 32,00 pro 


Übernachtung und Person für Zustellbetten . 


EN (TRUE) :All older children or adults are charged EUR 32.00 per night 


第 11 章 机 器 翻译 | 341 


and person for extra beds . 
EN (Predicted): All older children or adults are charged EUR 15 «unk» 


per night and person for extra beds . «/s» 


DE: Im Allgemeinen basieren sie auf Datenbanken , Templates und 


Skripts . 


EN (TRUE):In general they are based on databases , template and 
scripts . 
EN (Predicted): The user is the most important software of the 


software . «/s» 


DE: Tux Racer wird Ihnen helfen , die Zeit totzuschlagen und sie 


kónnen OpenOffice zum Arbeiten verwenden . 


EN (TRUE): Tux Racer will help you pass the time while you wait , 
and you can use OpenOffice for work . 

EN (Predicted): «unk» .com we have a very friendly and helpful 
staff . «/s» 


我 们 可 以 看 到 ， 尽 管 翻译 并 不 算 完美 ,但 是 大 多 数 时候 它 却 可 以 捕捉 到 源 语句 的 上 下 文 ， 并 且 
这 里 的 神经 网 络 机 器 翻译 系统 也 善于 生成 语法 正确 的 句子 。 

图 11-16 描绘 了 神经 网 络 机 器 翻译 系统 随时 间 变 化 其 BLEU 得 分 的 情况 。 随 着 时 间 的 推移 , VII 
练 和 测试 数据 集 的 BLEU 得 分 明显 增加 。 


040 


i] 
tu 
un 


T 
ui 030 
2 
g 025 
6 , ÁN ^ , +A " 
y A d ^ S ^^. 7 Sa - NA TIIAL aaa A 
mn 020 I" ^ vv/ uw ^ 
N 
=. 
uw 015 
end 
a ° 
010 NMT-Train 
NMT-Test 
0 20000 40000 60000 80000 100000 
iterations 


11-16 神经 网 络 机 器 翻译 系统 随时 间 变 化 其 BLEU 得 分 的 情况 
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11.8 ”结合 词 回 量 训练 神经 网 络 机 器 翻译 系统 


在 本 节 中 ， 我 们 将 讨论 如 何 结合 词 癌 量 来 训练 神经 网 络 机 顺 翻 译 NMT) 系统， 这 个 训练 涉 
及 以 下 两 个 方面 : 


e 与 词 诺 入 层 一 起 训练 神经 网 络 机 器 翻译 系统 。 
e ”使 用 预 训 练 词 向 量 ， 而 不 是 随机 初始 化 的 词 误 入 层 。 


有 几 种 多 语言 的 词 癌 量 存储 库 可 供 使 用 : 


€ Facebook's fastText: https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md 
€ CMU multilingual embeddings: http://www.cs.cmu.edu/-afm/projects/multilingual embeddings.html 


从 现在 开始 ， 我 们 将 使 用 CMU 词 向 量 (~200 MB) ， 因 为 它 与 fastText 文本 (-5 GB) 相 比 
要 小 得 多 。 首 先 需要 下 载 德语 (multilingual embeddings.de) 和 英语 (multilingual embeddings.en ) 
词 回 量 ， 这 可 以 在 chll 文件 夹 的 代码 文件 11 nmt with pretrained wordvecs.ipynb 中 找到 。 


11.8.1 最 大 化 数据 集 词汇 和 预 训练 词 喇 量 之 则 的 匹配 


首先 必须 获得 预 训练 词 同 量 的 子 集 ， 这些 子 集 与 我 们 有 意 要 解决 的 问题 相关 。 这 很 重要 ， 因 为 
预 训练 词 回 量 的 词汇 表 可 能 很 大 , 并 且 包 含 许多 在 数据 集 词汇 表 中 找 不 到 的 单词 。 预先 训练 的 词 问 
量 是 一 行 ， 其 中 在 行 中 的 第 一 个 是 单词 ， 其 他 是 由 空格 分 隔 的 词 问 量 。 预 训练 词 问 量 的 示例 行 如 下 
所 示 : 


door 0.283259492301 0.198089365764 0.335635845187 -0.385702777914 
0.491404970211 .. 


而 实现 这 一 目标 的 一 种 直 白 且 朴 素 的 方法 是 逐 行 运行 预 训练 数据 集 词 汇 , 如 果 发 现 当前 行 中 的 
单词 与 数据 集 词汇 表 中 的 单词 匹配 的 话 , 那么 我 们 将 该 单词 子 以 保存 以 便 后 续 进 行使 用 。 但 是 这 将 
是 非常 低 效 的 ， 因 为 一 般 情 况 下 词汇 往往 会 倾 同 于 设计 者 给 出 的 各 类 设计 策略 。 例如， 有 些 人 可 能 
认为 cat*s、cat 和 Cta 是 同一 个 单词 ， 而 其 他 人 则 可 能 认为 它们 是 独立 的 单词 。 如 果 我 们 只 是 一 味 
地 匹配 预 训练 词 喇 量词 汇 和 数据 集 词汇 ， 那么 结果 可 能 会 错过 很 多 单词 。 因此, 我 们 将 使 用 以 下 他 
辑 来 确保 能 够 获得 预 训练 词 回 量 中 的 大 多 数 词 回 量 。 


de embeddings -np.random.uniform(size-(vocabulary size, 
embeddings size),low--1.0,high-1.0) 

en embeddings - np.random.uniform(size-(vocabulary size, 
embeddings size),low--1.0,high-1.0) 


然后 ， 打 开 包 含 词 问 量 的 文本 文件 ， 如 下 上 所 示 。 
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filename 参数 是 针对 德语 的 multilingual embeddings.de 和 英语 的 miltilingual embeddings.en. 


with open(filename,'r',encoding-'utf-8') as f: 
Be FRKE "S F^) ST OK AT Br ER n] RE iR] [8] E e 


line tokens = line.split(' ') 
lword = line tokens[0] 


vector = [float(v) for v in line tokens[1:]] 


如 条 单词 为 空 (只 有 空格 、 制 表 符 或 换行 待 ) ， 则 会 忽略 : 


if len(lword.strip())--0: 


continue 


我 们 还 将 删除 单词 中 出 现 的 任何 重音 (特别 是 德语 中 的 单词 ) ， 以 确保 我 们 获得 高 概率 的 匹配 


lword = unidecode.unidecode(lword) 


我 们 将 编写 一 组 级 联 条 件 来 检查 源 语言 和 目标 语言 的 匹配 。 

首先 检查 来 目 预 训练 词 问 量 (lword) 的 单词 是 否 在 数据 集 词 汇 表 中 。 如 果 有 ， 则 检查 第 一 个 
字母 是 否 大 写 (cat 变 为 Cat 的 情形 ) ， 且 假设 我 们 能 够 在 数据 集 词汇 表 中 找到 它 。 

如 果 没 有 ， 则 通过 从 数据 集 词 汇 单词 中 删除 特殊 字符 〈 如 重音 符号 ) ， 以 检查 来 目 预 训练 词 问 
5 (lword) 的 单词 是 否 与 任何 单词 相似 。 

如 果 满 足 其 中 一 个 条 件 , 我 们 将 获得 该 词 回 量 , 并 将 其 分 配给 由 该 单词 ID 索引 的 行 (word 一 ID ) 
映射 存储 在 src_dictionary 和 tgt dictionary 中 〈 源 语言 和 目标 语言 ) 。 接 下 来 ， 执 行 下 面 的 操作 : 


# 为 蒂 入 更 新 随机 初始 化 的 词 向 量 和 矩阵 
# 更 新 与 预 训练 嵌入 匹配 的 单词 数量 
# [匹配 预 训练 词 向 量 
LEV: 
dword = dictionary[lword] 


words found ids.append(dictionary[lword]) 


embeddings[dictionary[lword],:] = vector 
words found += 1 
# 如 果 在 词汇 表 中 找 不 到 给 定 的 单词 
except KeyError: 
EET 
# 首 先 尝 试 将 第 一 个 字母 大 写 
if len(lword)»0: 
firt letter cap = lword[0].upper()-*lword[1:] 
else: 


continue 
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# 更 新 词 癌 量 和 矩阵 


dword = dictionary[firt letter cap] 


words found ids.append(dictionary[firt letter cap]) 


embeddings[dictionary[firt letter cap],:] - vector 


words found += 1 


except KeyError: 


# 如 果 没 有 找到 ， 尝 试 将 单词 与 非 重音 单词 匹配 。 


Ery: 
dword = unaccented dict[lword] 
words found ids.append(dictionary[lword]) 
embeddings[dictionary[lword],:] = vector 


words found += 1 


except KeyError: 


continue 


11.8.2 Jgi]BX AJ 3E X. TensorFlow 变量 


我 们 将 定义 两 个 可 训练 的 TensorFlow 变量 ， 用 于 词 租 入 层 ( 即 tgt word embeddings 和 
src word embeddings) ， 如 下 所 示 。 


tgt word embeddings - 
tf.get variable('target embeddings',shape-[vocabulary size, 
embeddings size], 
dtype-tf.float32, initializer - 


tf.constant initializer(en embeddings)) 


src word embeddings - tf.get variable('source embeddings', 
shape-[vocabulary size, embeddings size],dtype-tf.float32, initializer = 


tf.constant initializer(de embeddings)) 


接着 ， 我 们 将 dec . inputs 和 enc . inputs 中 占 位 符 的 维度 更 改 为 [batch_size]， 并 将 数据 类 型 
更 改 为 tint32。 因 此 ， 我 们 可 以 使 用 它们 对 每 个 展开 的 输入 执行 词 回 量 查找 (ttnn.embedding - 
lookup(...)， 如 下 所 示 。 


# 定 义 展开 的 训练 输入 及 词 向 量 查找 (编码 器 ) 
for ui in range(enc num unrollings): 


enc train inputs.append(tf.placeholder(tf.int32,shape-[batch size], 
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name-'train inputs $d'$ui)) 
enc train input embeds.append(tf.nn.embedding lookup(src word 


embeddings, enc train inputs[ui])) 


# 定 义 展开 的 训练 输入 、 词 向 量 、 输 出 和 掩 码 ( 解 码 器 ) 
for ui in range(dec num unrollings): 
dec train inputs.append(tf.placeholder (tf.int32, 
shape-[batch size],name-'dec train inputs $d'$ui)) 
dec train input embeds.append(tf.nn.embedding lookup 
(tgt word embeddings,dec train inputs[ui])) 
dec train labels.append(tf.placeholder(tf.float32, 
shape-[batch size,vocabulary size],name = 'dec train labels $d'$ui)) 
dec train masks.append(tf.placeholder(tf.float32, 


shape-[batch size,1], name-'dec train masks $d'$ui)) 


编码 器 和 解码 器 的 LSTM 细胞 计算 如 下 所 示 进 行 变化 。 在 这 部 分 中 ， 我 们 首先 使 用 源 语 句 作 
为 输入 以 便 计算 编码 器 LSTM 细胞 的 输出 ， 然 后 通过 使 用 出 自 于 编码 器 的 最 终 状态 信息 作为 解码 
器 的 初始 化 状态 (调用 t£control. dependencies(...))。 计 算 解 码 器 输出 、 计 算 softmax logits 和 预测 : 


## 友 代 更 新 编码 器 的 输出 和 状态 
for i in enc train inputs: 


output, state = enc lstm cell(i, output,state) 


print('Calculating Decoder Output') 


# 完 成 enc_1stm cell 的 计算 后 ， 计 算 解 码 器 的 输出 和 状态 
with tf.control dependencies([saved output.assign(output), 
saved state.assign(state)]): 
H IKAT R ERD SR SR d) H3 
for i in dec train inputs: 
output, state = dec lstm cell(í(i, output, state) 
outputs.append (output) 


请 注意 ,代码 文 件 的 输出 计算 与 此 处 显示 的 略 有 不 同 。 我 们 不 提供 先前 的 预测 作为 输入 ,而 是 
提供 真实 的 单词 作为 输入 ， 这 倾向 于 提供 比 先前 预测 中 更 好 的 性 能 ， 会 在 下 一 节 中 详细 讨论 。 
最 后 一 个 步骤 包括 计算 解码 器 的 损失 和 定义 优化 器 以 优化 模型 参数 ， 如 前 所 述 。 
至 此 ， 我 们 可 以 概括 用 于 实现 NMT 的 计算 图 ， 并 将 模型 的 计算 图 进行 可 视 化 ， 如 图 11-17 所 示 。 
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11.9 优化 神经 网 络 机 器 翻译 系统 


从 前 面 的 结果 可 以 看 出 ， 我 们 的 翻译 模型 的 表现 并 不 是 很 理想 。 这 些 结果 是 通过 在 单个 
NVIDIA 1080 TI GPU 上 运行 超过 12 小 时 的 优化 获得 的 。 男 外 ， 需 要 注意 的 是 ， 这些 其 实 并 不 是 完 
整 的 数据 集 ， 我们 只 使 用 了 250,000 个 句子 对 进行 训练 。 如 果 使 用 谷歌 公司 的 神经 网 络 机 器 翻译 系 
统 (GNMT) 来 翻译 的 话 ， 那 么 翻译 结果 看 起 来 是 非常 好 的 ， 除 了 有 一 些 轻微 的 错误 而 已 。 因 此 ， 
去 探讨 如 何 优化 模型 以 便 产 生 更 好 的 结果 是 非常 重要 的 。 在 本 节 中 , 我 们 将 讨论 几 种 优化 神经 网 络 
机 器 翻译 的 方法 ， 如 Teacher Forcing 算法 、 深 度 LSTM 和 注意 力 机 制 |。 


11.9.1 Teacher Forcing 算法 


一 种 对 神经 网 络 机 器 翻译 NMT) 模型 进行 优化 的 方法 是 采用 Teacher Forcing 算法 (Williams 和 
Zipser, 1989) ， 对 词 级 损失 (交叉 焙 ) 进行 训练 ， 这 迫使 模型 生成 严格 匹配 词 级 基本 事实 的 翻译 。 

正如 我 们 在 神经 网 络 机 器 翻译 (NMT) 训练 部 分 讨论 的 那样 ， 将 采取 以 下 措施 来 训练 NMT 系 
统 。 
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@ 首先 输入 完整 的 编码 器 句子 ， 以 获得 编码 器 的 最 终 状 态 输出 ; 

然后 将 编码 器 的 最 终 状 态 设 置 为 解码 器 的 初始 状态 ; 

e 最 后 让 解码 器 来 预测 完整 的 目标 语句 ， 除 了 编码 器 的 最 后 一 个 状态 输出 之 外 ， 再 也 没有 
任何 附加 信息 。 


例如 ， 老 师 要 求学 生 完成 以 下 句子 填空 ， 只 给 出 句子 中 的 第 一 个 单词 。 


对 于 这 种 现象 ， 我 们 很 容易 理解 ， 但 对 于 模型 来 说 ， 这 可 能 太 困 难 了 。 这 意味 着 ， 学 生 需 要 选 
择 主语 、 谓 语 、 宾 语 ， 了 解 语言 的 句法 ， 理 解 语言 的 语法 规则 等 。 因 此 ， 他 们 得 出 错误 句子 的 概率 
其 实 是 很 高 的 。 

如 果 要 求学 生 逐 字 逐 句 地 写 出 句子 ， 可 能 会 想 出 一 个 更 好 的 句子 。 换 句 话 来 说 ， 开 始 要 求学 生 
在 给 出 一 个 单词 〈 如 主语 ) 的 情况 下 写 出 下 一 个 单词 ， 如 下 所 示 : 


I 


接着 ， 在 给 出 两 个 单词 的 条 件 下 ， 还 是 继续 要 求 填写 一 个 单词 : 


I like 
以 同样 的 方式 继续 ， 如 下 所 示 : 
I like to r I like to fly 7 I like to fly kites , 


这 样 学 生 们 可 以 更 好 地 完成 正确 而 有 意义 的 句子 ， 而 这 种 现象 也 被 称 为 教师 强迫 〈Teacher 
Forcing) 现象 。 我 们 在 面 对 机 器 翻译 这 样 复杂 的 高 难度 任务 时 , 也 可 以 考虑 采用 Teacher Forcing 算 
法 来 减轻 翻译 任务 的 难度 ， 如 图 11-18 所 示 。 


M True Target 
Words 


yiz«s» yj yz Y: 


Predicted 
Target Words 


xN Ni o xl=<s> y? yr 
11-18 Teacher Forcing 的 原理 
(输入 中 较 暗 的 箭头 表示 新 引入 的 解码 器 输入 连接 ， 右 侧 图 显示 了 解码 器 LSTM 细胞 如 何 变化 ) 
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如 图 11-18 所 示 ， 解 码 器 的 输入 已 被 训练 数据 中 的 实际 目标 词 蔡 换 。 因 此 ， 给 定 源 语 句 ， 神 经 
网 络 机 器 翻译 解码 器 不 再 需要 承担 预测 整个 目标 语句 的 负担 。 相 反 , 解码 器 只 需要 在 给 定 前 一 个 单 
词 的 情况 下 正确 地 预测 当前 单词 。 值 得 注意 的 是 ， 在 前 面 我 们 没有 详细 讨论 Teacher Forcing 算法 
的 训练 过 程 ， 但 是 在 本 章 的 所 有 代码 文件 中 都 使 用 了 Teacher Forcing 算法 。 


11.9.2 深度 LSTM 


我 们 可 以 做 的 一 个 明显 的 改进 是 通过 将 LSTM 挫 登 到 彼此 之 上 ， 从 而 创建 深度 LSTM CÓ 
图 11-19) 来 增加 层 的 数量 。 例 如 ， 谷 歌 神经 网 络 机 器 翻译 (Google NMT, GNMTO 系统 使 用 8 
个 相互 堆 登 的 LSTM 层 (Google's Neural Machine Translation System: Bridging the Gap between 
Human and Machine Translation, Wu and others, Technical Report (2016) ) 。 虽然 这 限制 了 计算 效率 ， 
但 是 拥有 更 多 的 网 络 层 可 以 极 大 地 提高 神经 网 络 学 习 两 种 语言 语法 和 其 他 语言 特征 的 能 力 。 


| went home </s> 


Ich ging nach Hause «/s» </s> | went home 


11-19 一 个 深度 LSTM 的 示意 图 


在 论文 《Google's Neural Machine Translation System: Bridging the Gap between Human and 
Machine Translation》 介 绍 的 实验 中 ， 为 了 使 神经 网 络 机 器 翻译 系统 达到 良好 的 准确 性 ， 编 码 器 和 
解码 器 的 RNN《〈 循 环 神经 网 络 ) 必须 足够 深 ， 以 捕获 源 语言 和 目标 语言 中 细微 的 不 规则 性 。 这 一 
观察 结果 类 似 于 在 论文 《Sequence to Sequence Learning with Neural Networks) (Sutskever, I., Vinyals, 
O., and Le, Q. V.,2014) 中 提 到 的 结果 ， 即 深度 LSTM 明显 优 于 浅 层 LSTM 。 5 Minh-Thang Luong 
等 人 的 论文 《Addressing the Rare Word Problem in Neural Machine Translation》 提 到 的 结果 类 似 ， 
GNMT 对 编码 器 RNN 和 解码 器 RNN 使 用 深度 堆 登 LSTM (长 短期 记忆 ) 网络 。GNMT 具体 架构 
如 图 11-20 所 示 。 
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出 了 人 脑 对 于 外 界 物体 刺激 下 的 视觉 注意 力 反应 情况 。 


lu ska did 


- HOw 


J 11-21 ”人 类 的 视觉 注意 力 


图 11-21 其 实 已 经 很 形象 化 地 揭示 了 人 类 在 看 到 一 副 图 像 时 是 如 何 高 效 地 分 配 有 限 的 注意 力 
资源 的 , 这 里 红色 区 域 块 表示 我 们 的 视觉 神经 系统 更 在 意 的 目标 区 域 .显然 ,在 图 中 给 出 的 场景 里 ， 
在 婴儿 的 脸 部 、 文 本 的 标题 和 文章 的 首 句 等 位 置 分 配 了 更 多 的 注意 力 资源 。 

视觉 注意 力 机 制 是 我 们 视觉 所 特有 的 大 脑 信号 处 理 机 制 。 具体 来 看 , 首先 人 类 的 视觉 会 快速 扫 
描 全 部 图 像 区域 , 找到 含有 关键 信息 的 目标 区 域 , 或 者 说 是 注意 力 焦 点 ; 然后 对 于 目标 区 域 分 配 更 
多 的 注意 力 资 源 ， 以 便 搜集 到 更 多 涉及 关注 目标 的 细节 信息 ,同时 抑制 其 他 无 效 信 息 ; 最 后 随 着 时 
间 的 推移 , 人 类 视觉 系统 会 推移 并 调整 注意 力 焦 点 ,进而 最 大 限度 地 掌握 整个 观察 区 域 的 核心 内 容 。 

(最 后 一 点 ， 笔 者 在 国内 文献 中 暂时 没有 发 现 合适 的 内 容 ， 只 是 从 国外 一 篇 文章 
http://www.wildml.com/2016/01/attention-and-memory-in-deep-learning-and-nlp/ 中 查 到 , 这 里 采用 国外 
这 篇 文章 中 提 到 的 相关 内 容 ， 焦 点 随时 间 而 推移 调整 。 ) 

这 是 人 类 利用 有 限 的 注意 力 资源 从 大 量 信息 中 快速 筑 选 出 高 价值 信息 的 手段 ,是 人 类 在 长 期 进 
化 中 形成 的 一 种 生存 机 制 ， 人 类 视觉 注意 力 机 制 极 大 地 提高 了 视觉 信息 处 理 的 效率 与 准确 性 。 

神经 网 络 中 目前 的 注意 力 机 制 只 能 算是 非常 松散 地 基于 人 类 视觉 的 注意 力 机 制 。 虽 然 神 经 网 络 
中 存在 不 同 的 模型 , 但 是 它们 本 质 上 与 人 类 的 选择 性 视觉 注意 力 机 制 类 似 , 核心 目标 也 是 从 众多 信 
恩 中 选择 出 对 当前 任务 目标 更 关键 的 信息 。 可 以 归结 为 : 能 够 以 “高 分 辨 率 ”聚焦 于 图 像 的 某 个 区 
域 ， 同 时 以 “ 低 分 辨 率 ” 感 知 周围 图 像 ， 然 后 随 着 时 间 的 推移 调整 焦点 。 

2. 注意 力 模型 解决 的 问题 

在 解读 注意 力 模型 原理 之 前 ， 先 认识 一 下 注意 力 模 型 解决 的 问题 是 什么 。 这 时 , 我 们 就 不 得 不 
先 从 编码 器 -解码 器 (Encoder-Decoder) 框架 角度 去 解读 在 没有 引入 注意 力 机 制 的 情况 下 ， 其 自身 


局 限 性 的 情况 。 下 面 我 们 先 给 出 文本 处 理 领 域 常见 的 编码 器 -解码 器 框架 的 一 种 表现 形式 ， 如 图 
11-22 所 示 。 
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11-22 抽象 的 文本 处 理 领 域 的 编码 器 -解码 器 CEncoder-Decoder) 框架 


其 实 ， 图 11-22 所 展示 的 编码 器 -解码 器 框架 可 以 看 作 是 注意 力 分 心 模型 ， 为 了 便于 解释 ， 通 
过 下 面 的 例子 来 说 明 。 

假设 源 (Source) 和 目标 (Target) 的 词 序列 分 别 是 : Source={fxa xz , Xm} Target={y1, yz yn}。 
上 下 文 向 量 C 也 称 语义 编码 , 其 表达 式 为 C = f (xr xz ,xm)。 这 里 , f 是 解码 器 的 非 线 性 变换 函数 。 

生成 的 目标 词 为 y; = g(C, Y Yz 3-0)» ZE, g 是 解码 器 的 非 线性 变换 函数 。 


这 里 的 C、yi 实 际 上 就 是 我 们 在 神经 网 络 机 器 翻译 (NMT ) 模型 结构 详解 的 第 11.4.4 节 


中 介绍 的 V、 信 ， 因 为 这 里 都 是 通过 预测 得 到 的 数值 ， 严 格 意义 上 是 不 应 该 与 y 等 同 ， 具 
体 可 以 查看 11.4.4 小 节 关 于 神经 网 络 机 器 翻译 结构 详解 的 内 容 ， 但 是 这 里 为 了 与 一 些 主 
要 参考 文献 保持 一 致 ， 暂 且 这 么 解读 。 


现在 , 我 们 正在 进行 源 语言 为 英语 、 目标 语言 为 中 文 的 翻译 ,比如 输入 的 是 英文 单词 : Tom , 
Chase、Jery， 那 么 编码 器 -解码 器 框架 会 逐步 生成 中 文 词 : “汤姆 ”、“ 妃 逐 ”、“ 杰 瑞 ”。 目 标 
语句 Target 的 3 个 词 生成 过 程 如 下 : 

yi = 9(C) 
yo = g(C, yı) 
ya = g(C, y» Y2) 

在 张 博士 的 文章 中 ， 上 面 使 用 的 是 yt = f(C)、y2 = f(C,y1)、ys = f(C,y1,y2)， 笔 者 认为 这 里 
使 用 g 函数 表示 更 合适 ， 都 是 表示 解码 器 的 非 线 性 变换 函数 。 

由 于 语义 编码 C 是 经 由 源 语言 Source 句子 的 每 个 词 被 编码 器 编码 加 工 后 产生 的 ， 显 然 ， 这 里 
就 Source 语句 中 的 任何 词 而 言 ， 其 对 于 生成 某 个 目标 词 y; (无 论 是 y1,ys 还 是 ys….) 的 影 啊 力 是 等 
同 的 。 有 具 体 到 上 面 提 到 的 3 个 词 翻译 情况 来 讲 , 编码 器 -解码 器 框架 在 翻译 目标 词 “ 汤 姆 ”的 时 候 ， 
模型 里 每 个 词 对 于 目标 词 “ 汤 姆 ”的 翻译 贡献 度 是 相同 的 , 这 明显 是 符合 要 求 的 , 这 里 只 有 “Tom” 
翻译 成 “汤姆 ”更 合理 。 但 是 编码 器 - 解 但 器 框架 却 无 法 体现 这 一 点 ， 这 就 解释 了 为 什么 编码 器 - 解 
码 器 框架 模型 没有 体现 出 注意 力 的 原因 ， 没 有 聚焦 ， 可 以 看 作 是 注意 力 分 心 模 型 。 

其 实 ， 对 于 没有 引入 注意 力 机 制 的 模型 而 言 ， 我 们 输入 的 句子 长 度 较 短 时 ， 对 于 翻译 效果 影 啊 
有 限 ， 但 如 果 输 入 句子 较 长 时 ， 由 上 面 的 分 析 我 们 可 知 ， 此 时 所 有 的 语义 内 容 都 要 完全 转换 到 一 个 
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上 下 文 回 量 〈 也 就 是 本 部 分 的 语义 编码 CO 来 表示 ， 源 语句 单词 自身 信息 其 实 已 经 消失 ， 这 样 很 多 
细节 信息 也 会 丢失 严重 ， 上下文 同 量 无 法 提供 进行 良好 翻译 所 需 的 完整 信息 , 这 将 导致 解码 器 表现 
不 佳 和 生成 次 优 的 翻译 句子 。 

另外 ， 在 解码 期 间 ， 解 码 器 LSTM 仪 在 开始 时 观察 上 下 文 同 量 。 此 后 ， 解 码 器 LSTM 必须 记 
住 上 下 文 同 量 直到 翻译 结束 。 虽 然 LSTM 擅长 长 期 记忆 ， 但 实际 上 它们 是 有 限度 的 ， 这 将 严重 影 
吧 翻 译 结果 ， 尤 其 是 面临 长 名 的 情况 。 

这 时 , 注意 力 就 派 上 用 场 了 。 利 用 注意 力 机 制 ， 解 码 缉 能 够 访问 每 个 解码 时 间 步 长 上 的 编码 髓 
的 完整 状态 历史 信息 。 此 外 ， 注 意 力 机 制 引 入 softmax 层 ， 其 允许 解码 器 计算 过 去 观察 到 的 编码 器 
状态 的 加 权 平 均值 , 该 加 权 平 均值 将 被 用 作 和 解码 器 的 上 下 文 同 量 。 这 允许 解码 占 在 不 同 的 解码 步 又 
中 对 不 同 的 词 分 配 不 同 的 注意 力 资源 。 

其 实 , 我 们 可 以 初步 得 出 : 注意 力 机 制 模型 要 解决 的 就 是 打破 编码 器 和 解码 器 之 间 的 上 下 文 回 

量 〈 或 中 间 语 义 编 码 ) HERY e 


3. 注意 力 机 制 详解 


接 下 来 ， 我 们 先 抛 开 编码 器 -解码 器 框架 而 抽 离 出 注意 力 CAttention). 模型 进行 单独 解读 ， 以 
便 更 好 地 认识 注意 力 模 型 的 核心 思想 。 


(1) 注意 力 模型 
在 上 面 的 例子 中 引入 注意 力 模 型 后 ， 在 翻译 “汤姆 ”的 时 候 ， 为 了 体现 出 英文 单词 对 于 翻译 当 
前 中 文 词 的 不 同 影响 程度 ， 我 们 假设 给 出 一 个 类 似 如 下 的 概率 分 布 值 。 


(Tom,0.6) (Chase,0.2) (Jerry,0.2) 


这 里 ,每 一 个 英文 单词 的 概率 代表 了 翻译 成 当前 词 “ 汤 姆 ”时 ,注意 力 模型 分 配给 不 同 英 文 单 
词 的 注意 力 资源 的 大 小 ， 对 于 正确 翻译 目标 语句 中 词 的 作用 是 非常 积极 且 稳 健 的 。 同样， 目标 语句 
中 的 每 个 词 都 需要 学 习 其 对 应 的 源 语言 句子 中 词 的 注意 力 资源 分 配 的 概率 信息 情况 。 这 也 表明 , 在 
生成 每 个 目标 词 yi; 的 时 候 , 11.9.3 小 节 中 涉及 的 中 间 语 义 编码 C 会 转换 成 视 当 前 生成 词 而 不 断 变化 
的 Ci， 即 由 固定 中 间 语 义 纺 码 C 调整 为 引入 注意 力 模型 而 产生 变化 的 Ci。 我 们 认识 注意 力 模型 的 关 
键 就 在 这 里 ， 即 由 固定 的 中 间 语 义 表示 C 换 成 了 根据 当前 输出 词 来 调整 成 加 入 注意 力 模型 的 变化 
的 Ci。 每 个 Ci 对 应 着 不 同 的 源 语言 句子 中 词 的 注意 力 资 源 分配 的 概率 分 布 ， 其 计算 表达 式 如 下 : 


Ci = y aijh; 
]^1 


iX Hi, L 表示 Source 句子 的 长 度 ，aij 表 示 输 出 Target 句子 第 i 个 词 时 Source 句子 中 第 j 个 词 

的 注意 力 分 配 系 数 ，hj 为 编码 器 中 输入 句子 中 第 j 个 词 的 隐藏 状态 〈 张 博士 文中 给 出 的 则 是 Source 
输入 句子 中 第 j 个 词 的 语义 编码 ， 这 里 容易 与 他 文中 提 到 的 编码 器 -解码 器 框 杂 中 的 “语义 编码 C” 
混淆 ， 也 容易 引起 与 笔者 第 11.4.4 小 节 中 的 内 容 之 间 的 不 一 致 性 ， 在 查看 Gongbo Tang 等 人 论文 
(An Analysis of Attention Mechanisms: The Case of Word Sense Disambiguation in Neural Machine 


Translation) (2018) 后 ， 笔 者 认为 ，h 为 编码 器 中 的 隐藏 状态 应 该 更 合适 ， 这 样 与 关于 神经 网 络 
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机 器 翻译 结构 解读 的 部 分 就 可 以 连贯 起 来 ) 。ai 的 表达 式 则 是 : 
mope exp(ei;) 
7. YXk-iexp(ei) 


这 里 , er 是 测量 编码 器 的 第 j Rel S RU LAELIUS ES CU e co E 


性 ， 其 表达 式 如 下 : 
eij = va tanh(W, s; 4 十 Uahj) 


实际 上 ， 这 意味 着 要 用 多 层 感知 器 计算 ey HREH WAU JEBsq _D 和 万 是 神经 网 


络 的 输入 。 下 面 我 们 就 可 以 给 出 注意 力 机 制 的 架构 图 ， 如 图 11-23 所 示 。 


解 码 器 
X1 Yi Ym 
ET3 |  [Setma]| [sorma] 
8, 4 
S. (i1) 
S (i—1) ENG " is 
:注意 力 层 : Yo — Yu- Ym- 
a C Notation 
Softmax WwW 
: €io € € i : 1=wx : 
i ; : x 
Val Va Wal  — "sal ee | | ]Jlneseusciéeeics 
: E W 
Rn 
t 
ji.«fs» 


11-23 注意 力 机 制 的 架构 


(2) 注意 力 机 制 的 本 质 


结合 11.9.3 小 节 中 的 例子 ， 在 剥离 编码 志 - 解 码 器 框架 后 ， 对 于 解读 注意 力 机 制 的 本 质 


更 有 和 帮助， 如 图 11-24 Br. 


11-24 注意 力 机 制 的 本 质 思想 


思想 会 
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对 图 11-24 进行 解读 :将 Source 中 的 构成 元 素 想象 成 是 由 一 系列 的 <Key,Value> 数 据 对 构成 的 ， 
此 时 给 定 Target 中 的 某 个 元 素 Query， 通 过 计算 Query 和 各 个 Key 的 相似 性 或 相关 性 ， 得 到 每 个 
Key 对 应 Value 的 权重 值 系数 ， 然 后 对 Value 进行 加 权 求 和 ， 即 得 到 了 最 终 的 注意 力 数 值 。 所 以 本 
质 上 注意 力 机 制 是 对 Source 中 元 素 的 值 (Value) 进行 加 权 求 和 ， 而 Query 和 Key 用 来 计算 对 应 
Value 的 权重 值 系数 。 可 将 其 本 质 思想 改写 为 如 下 公式 : 

Lx 
Attention(Query, Source) = > Similarity (Query, Key;) * Value; 
i=1 
其 中 ，L, 是 源 语言 Source 句子 长 度 。 在 上 文 所 举 的 机 器 翻译 的 例子 里 ， 因 为 在 计算 注意 力 
(Attention) HFEF, Source 中 的 Key 和 Value 合 二 为 一 ， 指 回 的 是 同一 个 东西 ， 即 输入 句子 中 
每 个 词 对 应 的 语义 编码 ， 所 以 可 能 不 容易 看 出 这 种 能 够 体现 本 质 思 想 的 结构 。 

当然 , 从 概念 上 理解 , 把 注意 力 仍 然 理 解 为 从 大 量 信 息 中 有 选择 地 筛选 出 少量 重要 信息 并 聚焦 
到 这 些 重 要 信息 上 ， 忽略 大 多 不 重要 的 信息 ， 这 种 思路 仍然 成 立 。 聚焦 的 过 程 体 现在 权重 值 系 数 的 
计算 上 上， 权重 值 越 大 越 聚 焦 于 其 对 应 的 Value 值 上 ， 即 权重 值 代表 了 信息 的 重要 性 ， 而 Value 是 其 
对 应 的 信息 。 

从 图 11-24 也 可 以 引出 另外 一 种 理解 , 将 注意 力 机 制 看 作 一 种 软 寻 址 (Soft Addressing) : Source 
可 以 看 作 存 储 器 内 存储 的 内 容 , 元 素 由 地 址 Key 和 值 Value 组 成 , 当前 有 一 个 Key-Query 的 查询 ， 
目的 是 取出 存储 器 中 对 应 的 Value 值 。 通 过 Query 和 存储 器 内 元 素 Key 的 地 址 进行 相似 性 比较 来 
寻 址 ， 之 所 以 说 是 软 寻 址 ， 指 的 不 像 一 般 寻 址 只 从 存储 器 中 找 出 一 条 内 容 ， 而 是 可 能 从 每 个 Key 
地 址 都 会 取出 内 容 ， 取 出 内 容 的 重要 性 根据 由 Query 和 Key 的 相似 性 来 决定 ， 之 后 对 Value 进行 
加 权 求 和 ， 这 样 就 可 以 取出 最 终 的 Value 值 ， 即 注意 力 (Attention) 值 。 所 以 不 少 研究 人 员 将 注意 
力 机 制 看 作 软 寻 址 的 一 种 特例 ， 这 也 是 非常 有 道理 的 。 

至 于 注意 力 机 制 的 具体 计算 过 程 ,如果 对 目前 大 多 数 方法 进行 抽象 的 话 , 可 以 将 其 归纳 为 两 个 
过 程 : 第 一 个 过 程 是 根据 Query 和 Key 计算 权重 值 系 数 ; 第 二 个 过 程 是 根据 权重 值 系数 对 Value 
进行 加 权 求 和 。 而 第 一 个 过 程 又 可 以 细 分 为 两 个 阶段 : 第 一 个 阶段 根据 Query 和 Key 计算 两 者 的 
相似 性 或 相关 性 ; 第 二 个 阶段 对 第 一 阶段 的 原始 分 值 进行 归 一 化 处 理 。 这 样 ， 可 以 将 注意 力 

(Attention) 的 计算 过 程 抽象 为 如 图 11-25 展示 的 三 个 阶段 。 
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—— mg 


Value4 


11-25 计算 注意 力 (Attention) 过 程 的 三 个 阶段 


在 第 一 个 阶段 , 可 以 引入 不 同 的 函数 和 计算 机 制 , 根据 Query MEA Key_ i 计算 两 者 的 相似 性 
或 相关 性 ， 比 较 常 见 的 方法 包括 : 求 两 者 的 回 量 点 积 、 求 两 者 的 同 量 余弦 (Cosine〉 相 似 性 或 者 通 
过 再 引入 额外 的 神经 网 络 来 求 值 。 即 如 下 方式 : 


点 积 : Similarity(Query, Key;) = Query - Key 


. 、 MM X. Query-Keyi 
Cosine 相似 性 : Similarity(Query, Key;) = lIQueryl IIKey;l 


MLP 网 络 : Similarity(Query, Key;) = MLP (Query, Key;) 


第 一 阶段 产生 的 分 值 根据 具体 产生 的 方法 不 同 , 其 数值 取 值 范围 也 不 一 样 , 第 二 阶段 引入 类 似 
SoftMax 的 计算 方式 对 第 一 阶段 的 得 分 进行 数值 转换 。 一 方面 可 以 进行 归 一 化 ,将 原始 计算 分 值 整 
理 成 所 有 元 素 权 重 值 之 和 为 1 的 概率 分 布 ; 另 一 方面 也 可 以 通过 SoftMax 的 内 在 机 制 更 加 突出 重要 
元 素 的 权重 值 。 一 般 采 用 如 下 公式 计算 : 


eSimj 
a;-Softmax(Sim;)-———s3m- 
Zie J 


第 二 阶段 的 计算 结果 aj; 即 为 value; 对 应 的 权重 值 系数 ， 然 后 进行 加 权 求 和 即 可 得 到 注意 力 
(Attention) 数值 : 
ZX 


Attention(Query, Source) — 2. a; : Value; 


i-1 
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通过 以 上 三 个 阶段 的 计算 ， 即 可 求 出 针对 Query 的 注意 力 (Attention) 数值 ， 目 前 绝 大 多 数 有 具 
体 的 注意 力 机 制 计算 方法 都 符合 上 述 的 三 阶段 的 抽象 计算 过 程 。 


11.10 ”实现 注意 力 机 制 


在 本 节 中 ， 我 们 将 讨论 如 何 实 现 注意 力 机制 。 系 统 将 经 历 的 三 个 重大 变化 ， 如 下 : 


e 将 引入 更 多 参数 (权重 值 ), 用 于 计算 注意 力 并 将 注意 力 用 作 和 解码 器 LSTM 单元 的 输入 。 
e 3 引入 一 个 新 的 用 于 注意 力 相 关 计算 的 函数 (attn layer) 。 
e 改变 解码 器 LSTM 细胞 计算 ,以 将 所 有 编码 器 LSTM 细胞 输出 的 注意 力 加 权 和 作为 输入 。 


我 们 只 讨论 与 标准 神经 网 络 机 器 翻译 NMT) 模型 相 比 引入 的 其 他 内 容 ， 用 户 可 以 在 代码 文 
fF 11 neural machine translation attention.ipynb 中 找到 含有 注意 力 机 制 的 神经 网 络 机 器 翻译 (NMT) 
的 完整 代码 。 


11.10.1 定义 权重 值 


将 引入 三 组 新 的 权重 值 来 实现 注意 力 机 制 。 这 些 权重 值 被 用 来 计算 我 们 先前 讨论 的 项 (eij) 。 


W a — tf.Variable(tf.truncated normal([num nodes,num nodes],stddev-0.05), 


name-'W a') 


Ua = tf.Variable(tf.truncated normal([num nodes,num nodes],stddev-0.05), 


name-'U a') 


v a = tf.Variable(tf.truncated normal ( [num nodes,1],stddev-0.05),name-'v a') 
另外 ， 我 们 定义 一 组 新 的 权重 值 ， 用 于 将 所 作为 展开 解码 器 的 第 i 步 的 输入 。 


dec ic = tf.get variable('ic',shape-[num nodes, num nodes],initializer 


—tf.contrib.layers.xavier initializer()) 


dec fc = tf.get variable('fc',shape-[num nodes, num nodes],initializer 


—tf.contrib.layers.xavier initializer()) 


dec cc = tf.get variable('cc',shape-[num nodes, 


num nodes],initializer-tf.contrib.layers.xavier initializer()) 


dec oc = tf.get variable('oc',shape-[num nodes, num nodes],initializer = 


tf.contrib.layers.xavier initializer()) 
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11.10.2 ”计算 注意 力 


为 了 计算 编码 器 和 人 解码 器 的 每 个 位 置 的 注意 力 值 ， 我 们 将 定义 一 个 函数 (或 方法 ) ， 即 
attn layer(...)。 对 于 解码 器 的 单个 展开 步骤 ， 该 方法 计算 编码 器 的 所 有 位 置 (num enc unrollngs) 
的 注意 力 。attn layer(...) 方 法 有 两 个 参数 : 


attn layer(h j unrolled, s i minus 1) 


参数 如 下 : 

€ hi unrolled: 这 些 是 num enc unrolling 编码 器 的 LSTM 细胞 的 输出 ， 我 们 在 将 源 语句 提 
供给 编码 器 期 间 进行 计算 。 这 将 是 num enc unrolling 张 量 的 列表 ， 其 中 每 个 张 量 的 大 小 
为 [batch size, num nodes]. 

€ siminus 1: 前 一 个 解码 器 的 LSTM 细胞 的 输出 。 这 将 是 [batch size; num nodes] X. 4 
KE. 

首先 ， 我 们 将 创建 一 个 单 张 量 ， 其 中 包含 已 展开 的 编码 器 输出 列表 [num enc unrollings * 


batch size, num nodes]: 


enc logits = tf.concat(axis-0,values-h j unrolled) 
然后 通过 以 下 操作 计算 Wsci_y: 


# [enc num unroll x batch size, num nodes] 大 小 


w a mul s i minus 1 = tf.matmul (enc outputs,W a) 
接 下 来 计算 Uah;: 


# [enc num unroll x batch size, num nodes] X/h 


u a mul h j = tf.matmul(tf.tile(s i minus 1,[enc num unrollings,1]), U a) 


现在 ， 我 们 将 影响 力 〈 能 量 ) 计算 为 ejj = vatanh(Wasqi) + Uahj) 。 这 是 一 个 张 量 


[enc num unroll * batch size，1] 大 小 : 
e j = tf.matmul(tf.nn.tanh(w a mul s i minus 1 +u a mul h j),v a) 
我 们 首先 使 用 t£split C...) 将 e j 分解 为 enc_ num unrolling 长 张 量 的 列表 ， 其 中 每 个 张 量 都 是 
[batch_size, 1] 大 小 , 然后 沿 轴 1 连接 此 列表 以 生成 [batch_size, enc num unrollings] 大 小 的 张 量 ( 即 
reshaped e j) 。 单 行 reshaped e j 将 对 应 于 编码 器 展开 的 时 间 步 长 上 所 有 位 置 的 注意 力 值 : 


* 4cmp num unroll 元 素 列 表 ， 每 个 元 素 [batch size, 1] 


batched e j = tf.split(axis-0,num or size splits- 
enc num unrollings,value-e j) 
# [batch size, enc num unroll] 大 小 


reshaped e j = tf.concat(axis-1l,values-batched e j) 
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我 们 现在 可 以 很 容易 计算 reshaped e j 的 标准 化 注意 力 值 。 这 些 值 将 在 展开 的 时 间 步 长 
(reshaped e j 的 轴 10. 上 标准 化 : 


# [batch size, enc num unroll] 大 小 


alpha i = tf.nn.softmax(reshaped e j) 


然后 将 alpha i 分 解 为 enc_ num unroll 张 量 列表 ， 每 个 [batch_size，1] 大 小 : 

alpha i list = tf.unstack(alpha i,axis-1) 

我 们 将 计算 每 个 编码 器 输出 的 加 权 累 积 和 “h_j_unrolled〉 并 将 其 分 配给 c i. c i 将 用 作 解 码 
器 LSTM 细胞 的 第 i 个 展开 时 间 步 长 的 输入 : 

c i list - [tf.reshape(alpha i list[e i],[-1,1])*h j unrolled[e i] for e i in 


range (enc num unrollings)] 


c i = tf.add n(c i list) 4 of size [batch size, num nodes] 


为 了 将 c i 作为 解码 器 LSTM 细胞 的 第 1 步 的 输入 ， 解 码 器 LSTM 细胞 计算 有 如 下 变化 : 
# 细胞 计算 的 定义 〈 解 码 器 ) 


def dec lstm cell(i, o, state, c): 


"" "创建 一 个 LSTM 细胞 """ 


input gate = tf.sigmoid(tf.matmul(i, dec ix) + tf.matmul(o, dec im) 
*tf.matmul(c, dec ic) + dec ib) 


forget gate = tf.sigmoid(tf.matmul(i, dec fx) + tf.matmul(o, dec fm) 
*tf.matmul(c, dec fc) + dec fb) 


update = tf .matmul (i, dec cx) + tf.matmul(o, dec cm) *tf.matmul(c, dec cc) 
*dec cb 


state = forget gate * state + input gate * tf.tanh(update) 


output gate = tf.sigmoid(tf.matmul(i, dec ox) + tf.matmul(o, dec om) 


*tf.matmul(o, dec oc) + dec ob) return output gate * tf.tanh(state), state 


11.10.3 ”含有 注意 力 机 制 的 神经 网 络 机 器 翻译 的 部 分 翻译 结果 


以 下 是 我 们 在 10.000 步 后 获得 的 结果 。 


DE: &4124; Ferienwohnungen 1 Zi &4124; Ferienhäuser &#124; Landhäuser 
&1124; Autovermietung &4124; Last Minute Angebote ! ! 


EN (TRUE):&#124; 1 Bedroom Apts &#124; Holiday houses &4124; Rural 
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Homes &#124; Car Rental &#124; Last Minute Offers ! 


EN (Predicted): &4124; Apartments &#124; Hostels &#124; Hostels &#124; 


Last Minute Offers ! «/s» 

DE: Wie hilfreich finden Sie die Demo ##AT##-##AT## CD ? 

EN (TRUE): How helpful do you find the demo CD ##AT##-##AT## ROM ? 
EN (Predicted): How can you find the XLSTAT ##AT##-##AT## MX ? </s> 


DE: Das , Ladino di Fassa " ist jedoch mehr als ein Dialekt - es ist eine 


richtige Sprache . 


EN (TRUE):This is Ladin from Fassa which is more than a dialect : it is 


a language in its own right . 


EN (Predicted): The «unk»&quot; is a very important role in the world. 


«/s» 


DE: In der Hotelbeschreibung im Internet müßte die Zufahrt beschrieben 


werden . 
EN (TRUE): There are no adverse comments about this hotel at all . 


EN (Predicted): The «unk»«unk» is the «unk» of the Internet . «/s» 


与 我 们 之 前 观察 到 的 类 似 , 注意 力 集 中 的 神经 网 络 机 器 翻译 擅长 翻译 某 些 句子 , 但 在 翻译 其 他 
句子 方面 却 并 不 理想 。 
以 下 是 在 100 000 步 之 后 获得 的 结果 。 


DE: Das Hotel Opera befindet sich in der Náhe des Royal Theatre , 


Kongens Nytorv , &apos; Stroget &apos; und Nyhavn . 


EN (TRUE): Hotel Opera is situated near The Royal Theatre , Kongens Nytorv , 
&quot; Strøget &quot; and fascinating Nyhavn . 


EN (Predicted):Best Western Hotel «unk»«unk» , «unk» , «unk» ,<unk> , 
«unk» ,«unk» , «unk» , «unk» , «unk» , «unk» , «unk» , «unk», «unk» , «unk», 
«unk» , «unk» , «unk» , «unk» , «unk» , «unk» ,«unk» , «unk» ,«unk» , «unk» , 


«unk» , «unk» , «unk» , «unk» , 


DE: Alle álteren Kinder oder Erwachsene zahlen EUR 32,00 pro 
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Übernachtung und Person für Zustellbetten . 


EN (TRUE):Al1l older children or adults are charged EUR 32.00 per night 


and person for extra beds . 


EN (Predicted): All older children or adults are charged EUR 15 <unk> per 


night and person for extra beds . «/s» 
DE: Im Allgemeinen basieren sie auf Datenbanken , Templates und Skripts . 
EN (TRUE):In general they are based on databases , template and scripts . 


EN (Predicted): The user is the most important software of the software . 


«/s» 


DE: Tux Racer wird Ihnen helfen , die Zeit totzuschlagen und sie kónnen 


OpenOffice zum Arbeiten verwenden . 


EN (TRUE): Tux Racer will help you pass the time while you wait ,and you 


can use OpenOffice for work . 


EN (Predicted): «unk» .com we have a very friendly and helpful staff . «/s» 


我 们 使 用 了 用 于 评估 标准 神经 网 络 机 器 翻译 系统 的 同一 组 测试 句子 , 以 便于 进行 比较 。 可 以 看 
到 , 与 标准 神经 网 络 机 器 翻译 系统 相 比 , 具有 注意 力 模 型 的 神经 网 络 机 器 翻译 系统 提供 了 更 好 的 翻 
译 ， 但 仍然 有 可 能 导致 一 些 错误 翻译 ， 因 为 使 用 的 数据 量 有 限 。 

图 11-26 描绘 了 神经 网 络 机 器 翻译 和 含有 注意 力 机 制 的 神经 网 络 机 器 翻译 随时 间 逐 步 变化 的 
BLEU 评分 。 我 们 可 以 清楚 地 看 到 , 含有 注意 力 机 制 的 神经 网 络 机 器 翻译 在 训练 和 测试 数据 中 都 给 
出 了 更 好 的 BLEU 分 数 。 


^ 
(NASA mT 


-——— Aw tTn PLAT a A c - -a «a 
-— 


NMT-Train 


一 一 NMT-TeSt 
一 一 NMT-Attention-Train 
一 一 NMT-Attention-Test 


BLEU-4 Score (DE-EN) 


0 20000 40000 60000 80000 100000 
Iterations 


11-26 神经 网 络 机 器 翻译 和 含有 注意 力 机 制 的 神经 网 络 机 器 翻译 随时 间 变 化 的 BLEU 评分 
根据 2017 年 的 结果 ， 目 前 德语 到 英语 翻译 的 BLEU 评分 为 33.1《〈 爱 丁 堡 大 学 的 WMTI17 神经 
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网 络 机 器 翻译 系统 由 Rico Sennrich 等 人 提供 ，arXiv preprint arXiv: 1708.00726 (2017) ) 。 


11.11 可 视 化 源 语句 和 目标 语句 的 注意 


在 图 11-27 F, 我 们 以 可 视 化 方式 来 观察 注意 力 数 值 如 何 为 给 定 的 目标 词 寻 找 不 同 的 源 词 。 当 
计算 注意 力 数值 时 ， 我 们 得 到 了 解码 器 中 给 定位 置 的 enc. num unrollings 注意 力 数值 。 因 此 ， 如 果 
将 所 有 注意 力 向 量 连接 到 解码 器 中 的 所 有 位 置 ， 就 可 以 创建 注意 力矩 阵 。 


s 
s 2 x 
i 


11-27 一 些 不 同 的 源 -目标 翻译 句子 对 的 注意 力 窍 阵 


在 注意 力矩 阵 中 ,目标 词 作为 行 ， 源 词 作为 列 。 对 于 某 些 行 和 列 ， 较 高 的 ( 较 轻 的 ) 值 表明 当 
预测 在 该 行 中 找到 的 目标 词 时 ， 解 码 句 主要 关注 该 列 给 出 的 源 词 。 
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11.12 历史 性 突破 


11.12.1 BERT 模型 简 述 


BERT 模型 


BERT (Bidirectional Encoder Representations from Transformers) 是 一 种 预 训练 语言 表示 的 新 方 
ik. 我 们 可 以 在 一 个 大 型 文本 语料库 上 训练 一 个 通用 的 “语言 理解 ”模型 ， 然 后 将 这 个 模型 用 于 我 
们 比较 关心 的 问题 回答 等 下 游 的 自然 语言 处 理 (NLP) 任务 。BERT 模型 的 一 个 亮点 在 于 它 是 第 一 
个 用 于 预 训练 NLP 任务 的 无 监督 、 深 度 双向 的 系统 (Unsupervised, Deeply Bidirectional System) 。 
监督 意味 着 BERT 只 使 用 纯 文 本 语料库 进行 训练 ， 这 个 意义 非凡 ， 因 为 网 络 上 有 海量 的 公开 的 
纯 文 本 数据 ， 并 且 也 是 多 语言 的 。 谷 歌 研究 人 员 通 过 该 模型 在 11 项 NLP 任务 中 夺 得 STOA 结果 ， 
效果 确实 惊人 ， 其 中 在 两 个 衡量 指标 上 全 面 超越 人 类 ， 包 括 将 GLUE 基准 推 至 80.4% (绝对 改进 
7.696) 及 MultiNLI 准确 度 达到 86.7%〔 绝 对 改进 率 5.696) 等 ， 这 在 自然 语言 处 理学 界 及 工业 界 都 
引起 了 很 大 的 震动 。 详 情 可 以 查阅 Jacob Devlin 等 人 的 论文 《BERT: Pre-training of Deep Bidirectional 
Transformers for Language Understanding) 。 
BERT 模型 在 SQuAD v1.1 问题 回答 任务 的 结果 如 表 11-2 所 示 。 


表 11-2 BERT 模型 在 SQuAD v1.1 问题 回答 任务 的 结果 


SQuAD v1.1 Leaderboard (Oct 8^ 2018) Test EM Test F1 


Ist Place Single Model-BERT EINEN 
2nd Place Single Model-nlnet [ms Joi 


自然 语言 方面 部 分 推理 任务 的 结果 如 表 11-3 所 示 。 
表 11-3 自然 语言 方面 部 分 推理 任务 的 结果 


BERT — lm [863 


需要 说 明 的 一 点 是 ， 这 些 结果 都 是 在 没有 特定 任务 (Task-Specific) 的 神经 网 络 架构 设计 的 情 
况 下 获得 的 。 


2018 年 11 月 , ARE GitHub 上 发 布 了 备 受 关注 的 “最 强 NLP 模型 "BERT 的 TensorFlow 


代码 和 预 训练 模型 ， 地 址 为 https://github.com/google-research/bert. Jacob Devlin 等 人 的 论 
X. &KBERT: Pre-training of Deep Bidirectional Transformers for Language Understanding) 地 
址 为 https://arxiv.org/abs/1810.04805. 
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11.12.2 BERT 模型 结构 


这 里 根据 Jacob Devlin 等 人 的 论文 《BERT: Pre-training of Deep Bidirectional Transformers for 
Language Understanding》 进 行 模 型 简要 介绍 。 其 实 ，BERT EWR I GPT 模型 的 结构 ， 采 用 
Transformer 的 编码 器 作为 主体 模型 结构 ， 也 融 是 论文 中 提 到 的 基于 Ashish Vaswani 等 人 (2017) 
HJ Attention is all you need》 中 描述 的 原始 实现 的 Multi-layer Bidirectional Transformer 编码 器 ， 并 
在 tensor2tensor 库 中 进行 发 布 。 而 Transformer MIA f" RNN 的 循环 式 网 络 结构 , 仅 是 基于 注意 力 
机 制 来 对 一 段 文本 进行 建 模 。 由 于 现在 Transformer 的 使 用 变 得 无 处 不 在 ， 论 文中 的 实现 与 原始 实 
现 完全 相同 ， 因 此 这 里 将 省 略 对 模型 结构 的 详细 描述 。 

在 这 项 工作 中 ， 论 文 将 层 数 (Transformer Blocks) 表示 为 L， 将 隐藏 大 小 表示 为 H， 将 
Self-Attention Heads 的 数量 表示 为 A。 在 所 有 情况 下 ， 将 Feed-Forward/Filter 的 大 小 设置 为 4H, 
BI H = 768 时 为 3072，H = 1024 时 为 4096。 论 文 主要 给 出 了 以 下 两 种 模型 大 小 的 结果 。 


€ BERT BASE: L-12, H-768, A-12, Total Parameters-110M 
© BERT LARGE: L-24,H-1024, A-16, Total Parameters-340M 


为 了 进行 比较 ， 论 文选 择 了 与 OpenAI GPT 具有 相同 的 模型 大 小 。 然 而 ， 重 要 的 是 BERT 
Transformer EJH Y XUE] Self-Attention 〈 目 注意 力 ) 机 制 ， 而 GPT Transformer 则 使 用 受 限 制 的 
Self-Attention 机 制 ， 其 中 每 个 Token 〈 切 分 词 ) 只 能 处 理 其 左 侧 的 上 下 文 。 双 回 Transformer 通常 
被 称 为 “Transformer Encoder”， 而 左 侧 上 下 文 则 被 称 为 “Transformer Decoder”， 因 为 它 可 以 用 
于 文本 生成 。BERT、OpenAI GPT 和 ELMo 之 间 的 比较 如 图 11-28 所 示 。 


BERT (Ours) OpenAl GPT 


11-28 ” 预 训 练 模型 架构 的 差异 


BERT 使 用 双 回 Transformer; OpenAI GPT 使 用 从 左 到 右 的 Transformer; ELMo 使 用 经 过 独立 
训练 的 从 左 到 右 和 从 右 到 左 LSTM 的 串联 来 生成 下 游 任务 的 特征 。 三 个 模型 中 ， 只 有 BERT 表示 
在 所 有 层 中 共同 依赖 于 左右 上 下 文 。 

BERT 对 GPT 的 第 一 个 改进 就 是 引入 了 双 回 的 语言 模型 任务 。 此 前 其 实 也 有 一 些 研究 在 语言 
模型 这 个 任务 上 使 用 了 双向 的 方法 , 例如 在 ELMo 中 是 通过 双向 的 两 层 RNN 结构 对 两 个 方向 进行 
建 模 ， 但 两 个 方向 的 损失 计算 是 相互 独立 的 。 而 BERT 的 作者 指出 : 这 种 两 个 方向 相互 独立 或 只 
有 单 层 的 双 回 编码 可 能 没有 发 挥 出 最 好 的 效果 ， 我 们 不 仅 需要 双 回 编码 ， 还 需要 加 深 网 络 的 层 数 。 
但 加 深 双 回 编 码 网 络 却 会 引入 一 个 问题 ， 导 致 模型 最 终 可 以 间接 地 “ 宵 探 ”到 需要 预测 的 词 。 这 个 

“WR” PEFEA HBI 11-29 来 表示 。 
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11-29 ”模型 间接 “ 宽 探 ”到 需要 预测 词 的 过 程 之 示意 图 


从 图 11-29 中 可 以 看 到 经 过 两 层 的 双向 操作 , 每 个 位 置 上 的 输出 已 经 带 有 原本 这 个 位 置 上 词 的 
信息 了 。 这 样 的 “ 宽 探 ”会 导致 模型 预测 词 的 任务 变 得 失去 意义 ， 因 为 模型 已 经 看 到 每 个 位 置 上 是 
什么 词 了 。 

为 了 解决 这 个 问题 , 我 们 可 以 从 预 训练 的 目标 入 手 。 我 们 想 要 的 其 实 是 让 模型 学 会 某 个 词 适 合 
出 现在 怎样 的 上 下 文 语 境 中 ; 反 过 来 说 ， 如 果 给 定 了 某 个 上 下 文 语 境 ， 那么 我 们 希望 模型 能 够 知道 
这 个 地 方 适 合 填 入 怎样 的 词 。 从 这 一 点 出 发 ， 其实 可 以 直接 去 掉 这 个 词 ， 只 让 模型 看 上 下 文 ， 然 后 
来 预测 这 个 词 , 但 这 样 做 会 丢掉 这 个 词 在 文本 中 的 位 置信 息 。 还 有 一 种 方式 是 在 这 个 词 的 位 置 上 随 
机 输入 某 一 个 词 ， 但 如 果 每 次 都 随机 和 输入， 就 可 能 会 让 模型 难以 收敛 。 

BERT 的 作者 提出 了 采用 MaskLM 的 方式 来 训练 语言 模型 。 通 俗 地 说 ， 就 是 在 输入 一 句 话 的 
时 候 ， 随 机 地 选 一 些 要 预测 的 词 ， 然 后 用 一 个 特殊 的 符号 来 代替 它们 。 尽 管 模型 最 终 还 是 会 看 到 所 
有 位 置 上 的 输入 信息 , 但 由 于 需要 预测 的 词 已 经 被 特殊 符号 代替 ,所 以 模型 无 法 事先 知道 这 些 位 置 
上 是 什么 词 ， 这 样 就 可 以 让 模型 根据 所 给 的 标签 去 学 习 这 些 地 方 该 填 的 词 了 。 

然而 这 里 还 有 一 个 问题 , 就 是 我 们 在 预 训练 过 程 中 所 使 用 的 这 个 特殊 符号 , 在 后 续 的 任务 中 是 
不 会 出 现 的。 因此 , 为 了 与 后 续 任 务 保持 一 致 ， 作 者 按 一 定 的 比例 在 需要 预测 的 词 位 置 上 输入 原 词 
或 某 个 随机 的 词 。 当 然 ， 由 于 一 次 输入 的 文本 序列 中 只 有 部 分 的 词 用 来 进行 训练 ， 因 此 BERT 在 
效率 上 会 低 于 普通 的 语言 模型 ， 作 者 也 指出 BERT 的 收敛 需要 更 多 的 训练 步 数 。 

BERT 另外 一 个 创新 是 , 在 双向 语言 模型 的 基础 上 额外 增加 了 一 个 句子 级 别 的 连续 性 预测 任务 。 
这 个 任务 的 目标 也 很 简单 ， 就 是 预测 输入 BERT 的 两 端 文本 是 否 为 连续 的 文本 ， 作 者 指出 引入 这 
个 任务 可 以 更 好 地 让 模型 学 到 连续 的 文本 片段 之 间 的 关系 。 在 训练 的 时 候 , 输入 模型 的 第 二 个 片段 
会 以 $0% 的 概率 从 全 部 文本 中 随机 选取 ， 剩 下 50% 的 概率 选取 第 一 个 片段 的 后 续 文 本 。 


11.13 ”总 结 


在 本 章 中 ,我 们 首先 详细 介绍 了 基于 规则 的 机 器 翻译 、 统 计 机 器 翻译 等 传统 的 机 占 翻 译 的 情况 ， 
包括 基于 规则 的 机 咒 翻 译 和 统计 机 器 翻译 各 目的 研究 背景 、 种 类 和 模型 原理 。 
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其 次 ， 我 们 详细 讨论 了 神经 网 络 机 器 翻译 NMT) 。 在 该 部 分 对 神经 网 络 机 器 翻译 模型 的 架 
构 和 工作 机 制 做 了 详细 解读 ,并 通过 一 个 小 实例 进行 了 深入 转述 ,我 们 讨论 了 这 些 系 统 的 基本 概念 ， 
并 将 模型 分 解 为 词 嵌 入 层 、 编 码 器 .上下文 回 量 和 解码 器 。 我 们 之 所 以 首先 介绍 了 词 嵌 入 层 的 好 处 ， 
是 因为 与 独 热 (One-Hot) 编码 问 量 相 比 , 它 提供 了 词 的 语义 表示 。 其 次 我 们 了 解 了 编码 器 的 目标 ， 
即 学 习 一 个 代表 源 语句 的 固定 长 度 的 同 量 。 接 下 来 , 学习 了 固定 长 度 的 上 下 文 辐 量 ,， 再 用 它 来 初始 
化 解码 器 。 解码 器 负责 产生 源 语句 的 实际 翻译 。 然后 我 们 讨论 了 神经 网 络 机 器 翻译 系统 中 的 训练 和 
推理 是 如 何 工作 的 。 

接着 , 我 们 给 出 了 评估 机 器 翻译 系统 的 重要 指标 : BLEU 评分 。 这 里 涉及 BLEU 的 度量 、 BLEU 
的 调整 和 惩罚 因子 、BLEU 得 分 总 结 等 。 

然后 , 我 们 研究 了 神经 网 络 机 器 翻译 系统 的 实现 ,该 系统 将 句子 从 德语 翻译 成 英语 ， 以 此 理解 
神经 网 络 机 器 翻译 系统 的 内 部 机 制 。 在 这 里 ， 我 们 研究 了 使 用 基本 TensorFlow 操作 实现 的 神经 网 
络 机 器 翻译 系统 ， 因 为 与 使 用 TensorFlow 中 的 现成 库 ( 如 seq2seq) 相 比 ， 这 使 我 们 能 够 深入 了 解 
系统 的 逐步 执行 。 

最 后 ， 我 们 讨论 了 引爆 2018 年 的 重大 研究 发 现 : BERT 模型 。 我 们 了 解 到 BERT 模型 是 第 一 
个 用 于 预 训练 自然 语言 处 理 (NLP) 任务 的 无 监督 、 深 度 双 回 的 系统 (Unsupervised, Deeply 
Bidirectional System) ， 且 该 模型 在 11 项 NLP 任务 中 夺 得 STOA R, SAMS. EXE, RI] 
知道 BERT 模型 是 经 过 改进 后 的 GPT 模型 ， 其 中 的 两 个 创新 之 处 是 : 采用 MaskLM 的 方式 来 训练 
语言 模型 ; 在 双 疝 语言 模型 的 基础 上 额外 增加 了 一 个 句子 级 别 的 连续 性 预测 任务 。 

在 下 一 章 中 ， 我 们 将 讨论 智能 问答 系统 。 


问答 (Question Answering; QAO 是 自然 语言 处 理 中 一 项 具有 挑战 性 的 任务 。 近 年 来 ， 随 着 深 
度 学 习 在 语义 和 句法 分 析 、 机 器 翻译 、 关 系 抽取 等 目 然 语言 处 理 任务 上 取得 了 显著 的 成 功 ， 利 用 深 
度 学 习 来 完成 问答 任务 也 得 到 了 越 来 越 多 的 关注 .本 章 将 简要 介绍 深度 学 习 方 法 在 两 个 典型 问答 任 
务 上 的 最 新 进展 的 情况 。 d) 基于 知识 库 深 度 学 习 的 问答 CKBQAO ， 主 要 采用 深度 神经 网 络 来 
理解 问题 的 含义 ， 并 尝试 将 其 转化 为 结构 化 查询 ， 或 者 直接 转化 为 分 布 式 语义 表示 。 (2) 机 器 理 
解 中 的 深度 学 习 (Machine Comprehension, MC) 是 一 种 基于 新 型 神经 网 络 的 端 到 端 范 式 ， 用 于 直 
接 计 算 问 题 、 答 案 和 给 定 段 落 之 间 的 深层 语义 匹配 。 


12.1 概要 


从 简单 的 文档 检索 到 自然 语言 问答 (QAO ， 网 络 搜索 正 处 于 深刻 变革 的 前 沿 中 。 它 需要 准确 
理解 用 户 在 自然 语言 问题 方面 的 含义 , 从 网 络 上 各 种 信息 中 提取 有 用 的 事实 , 并 选择 出 合理 的 答案 。 
与 其 他 自然 语言 处 理 (NLP) 任务 ， 如 词性 标注 、 解 析 和 机 器 翻译 类 似 ， 大 多 数 传 统 的 QA 方法 都 
是 基于 符号 表示 的 。 在 这 样 的 范式 中 , 问题 和 答案 中 的 所 有 元 素 , 包 插 单词、 短语 、 句子 、 文 档 等 ， 
通常 都 是 借助 于 NLP 基本 模块 来 处 理 的 ， 然 后 转换 为 某 些 结构 化 或 非 结构 化 格式 ， 如 词 袋 、 解 析 
树 、 逻 辑 形式 等 。 在 给 定 的 文档 或 网 页 中 ， 计 算 问 题 和 候选 答案 之 间 语 义 的 相似 性 或 相关 性 ， 并 且 
有 具有 最 高 分 数 的 候选 项 便 是 最 终 答 案 。 尽管 如 此 , 这 种 范式 的 弱点 在 于 所 谓 的 “语义 鸿沟 ”(Semantic 
Gap) ， 即 具有 相似 含义 的 文本 跨度 可 能 会 用 不 同 的 符号 表示 。 

在 神经 网 络 模型 中 , 文本 通常 表示 为 分 布 式 同 量 , 而 文本 跨度 之 间 的 精确 匹配 可 以 由 分 布 式 问 
量 之 间 的 运算 来 实现 。 这 样 传统 方法 中 的 语义 鸿沟 问题 就 可 以 在 一 定 程 度 上 得 到 缓解 。 

此 外 ， 问 答 任务 中 还 有 几 个 分 文 ， 包 括 基 于 检索 的 问答 ORQA) 、 社 区 的 问答 CCQAO 、 基 
于 知识 库 的 问答 CKBQAO 和 机 器 理解 MO) 的 问答 。 在 这 里 ， 我 们 主要 关注 基于 知识 库 的 问答 

(KBQAO 和 基于 机 器 理解 (MC) 的 问答 ， 因 为 这 两 个 问答 需要 对 文本 从 问题 到 文档 进行 更 多 的 
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语义 分 析 和 理解 。 另 外 ， 我 们 还 将 从 两 个 角度 讨论 KBQA 的 最 新 进展 ， 并 进一步 回顾 针对 机 器 理 
解 MC) 的 深度 学 习 工 作 等 。 


12.2 ”基于 知识 库 的 问答 


截至 目前 , 其 实 已经 有 研究 人 员 在 扩展 新 的 神经 网 络 模 型 方面 进行 了 许多 成 功 的 尝试 , 并 且 提 
高 了 知识 库 问 答 系统 的 性 能 。 这 里 有 多 种 新 型 的 神经 网 络 组 件 或 架构 及 其 变 体 ， 如 CNN. RNN 
(LSTM. BLSTM) 、 注 意 力 机 制 和 记忆 网 络 ， 并 且 已 经 在 任务 中 得 到 了 检验 。 这 些 工 作 内 容 可 以 
被 分 为 两 种 模式 : 信息 抽取 (Information Extraction, IE) 和 语义 分 析 (Semantic Parsing, SP) ， 
如 图 12-1 所 示 。 信 息 抽 取 模 式 通常 使 用 各 种 关系 提取 技术 从 知识 库 中 检索 一 组 候选 答案 ， 然 后 将 
这 些 候 选 答案 与 压缩 特征 空间 中 的 问题 进行 比较 ;语义 分 析 模 式 则 是 借助 新 型 的 组 件 或 神经 网 络 结 
构 ， 从 句子 中 提取 出 正式 的 /符号 化 的 表示 或 结构 化 的 查询 。 


Natural Language Question Natural Language Question 


Anchor Semantic Parser 
Topic Entity Meaning Representation 
Retrieve KB Graph Map with KB 
Candidate Answer Structured Query 
Ranking Query over KB 


Ca) 信息 抽取 模式 框架 (b) 语义 分 析 模 式 框架 
图 12-1 


从 男 一 个 角度 来 看 ,我们 可 以 将 有 关 利 用 深度 学 习 方法 来 促进 基于 知识 库 的 问答 (KBQA) FF 
发 工作 分 为 两 类 : 在 传统 的 KBQA 框架 内 使 用 新 型 的 神经 网 络 模型 来 改进 特定 的 组 件 和 在 统一 的 
神经 网 络 染 构 中 标准 化 工作 任务 。 前 一 种 观点 主要 侧重 于 利用 先进 的 神经 网 络 模 型 来 改进 现 有 的 组 
件 ， 如 特征 提取 、 关 系 识别 、 语 义 匹配 或 相似 度 计算 等 ， 后 者 则 是 强调 利用 新 型 的 深度 学 习 框架 来 
使 自然 语言 的 问题 和 候选 答案 被 构建 在 同一 低 维 语义 空间 内 。 因 此 ， 该 KBQA 任务 可 以 转换 为 问 
题 的 回 量 和 该 空间 中 候选 答案 之 间 相 似 度 的 计算 问题 ， 通 常 以 信息 抽取 的 方式 展开 。 


12.2.1 信息 抽取 


我 们 在 使 用 深度 学 习 方法 的 过 程 中 ,主要 是 侧重 于 寻找 更 好 的 方法 将 自然 语言 的 问题 和 来 自 知 
识 库 的 候选 答案 租 入 同一 个 且 被 压缩 的 语义 空间 中 。 一 般 情 况 下 , 这 些 工 作 会 在 统一 的 神经 网 络 架 
构 中 以 “检索 - 宜 入 -比较 ” (Retrieval-Embedding-Comparing) 流水 线 式 (有 时 也 称 为 管道 ) 的 形 
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式 对 解决 方案 进行 标准 化 。 

1. 基本 介绍 

信息 抽取 Cnformation Extraction, IE) 是 把 文本 中 包含 的 信息 进行 结构 化 处 理 ， 变 成 表格 一 
样 的 组 织 形式 。 输 入 信息 抽取 系统 的 是 原始 文本 ,输出 的 是 固定 格式 的 信息 点 。 信 息 点 首先 从 各 种 
各 样 的 文档 中 被 抽取 出 来 , 然后 以 统一 的 形式 集成 在 一 起 ,这 就 是 信息 抽取 的 主要 任务 。 信息 以 统 
一 的 形式 集成 在 一 起 的 好 处 是 方便 检索 和 比较 。 信息 抽 取 技 术 并 不 试图 全 面 理解 整 篇 文档 ,只 是 对 
文档 中 包含 相关 信息 的 部 分 进行 分 析 , 至 于 哪些 信息 是 相关 的 ,将 由 系统 设计 时 指定 的 范围 来 决定 。 

信息 抽取 技术 对 于 从 大 量 的 文档 中 抽取 需要 的 特定 事实 来 说 是 非常 有 用 的 , 互联 网 就 是 这 么 一 
个 文档 库 。 在 互联 网 上 ,同一 主题 的 信息 通常 分 散 存 放 在 不 同 的 网 站 上 ， 表 现形 式 也 各 不 相同 ， 如 
果 能 将 这 些 信 息 收 集 在 一 起 ， 并 利用 结构 化 形式 存储 ， 那 将 是 非常 有 益 的 。 

由 于 互联 网 上 的 信息 载体 主要 是 文本 ,所 以 信息 抽取 技术 对 于 那些 把 互联 网 当成 知识 来 源 的 人 
来 说 是 至 关 重 要 的 。 信息 抽取 系统 可 以 看 作 是 把 信息 从 不 同文 档 中 转换 成 数据 库 记 录 的 系统 , 成 功 
的 信息 抽取 系统 将 把 互联 网 变 成 巨大 的 数据 库 。 

虽然 信息 抽取 技术 是 近年 来 发 展 起 来 的 新 技术 领域 , 但 也 面临 着 许多 新 的 挑战 。 信息 抽取 原来 
的 目标 是 从 自然 语言 文档 中 找到 特定 的 信息 , 是 目 然 语 言 处 理 领 域 特别 有 用 的 一 个 子 领 域 。 它 所 开 
发 的 信息 抽取 系统 既 能 处 理 含有 表格 信息 的 结构 化 文本 ， 又 能 处 理 自由 式 文本 (如 新 闻 报道 ) 。 信 
恩 抽取 系统 中 的 关键 组 成 部 分 是 一 系列 的 抽取 规则 或 模式 , 其 作用 是 确定 需要 抽取 的 信息 。 互联 网 
上 文本 信息 的 大 量 增加 导致 这 方面 的 研究 得 到 高 度 重 视 。 


2. 向 量 表示 


Bordes 等 人 于 2014 年 率先 提出 了 信息 抽取 模式 的 方法 ， 他 们 没有 单独 将 类 别 、 实 体 引 用 和 关 
系 模式 映射 到 知识 库 中 对 应 的 类 型 、 实 体 和 谓词 , 而 是 提出 了 一 种 更 直接 的 方法 。 他们 设计 了 一 个 
联合 髓 入 框架 来 学 习 结构 化 知识 库 中 的 单词 、 实 体 、 关 系 和 其 他 语义 项 的 向 量 表示 ,并 设法 将 自然 
语言 问题 映射 到 知识 库 中 的 子 图 ， 如 图 12-2 所 示 。 


BOW Embedding BOW Embedding 


"Who did Clooney marry in 1987?" 


12-2 [8 EE Ez ES 
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当 上 自然 语言 问题 和 候选 子 图 用 低 维 同 量 表示 时 , 可 以 很 容易 地 计算 出 问题 和 子 图 之 间 的 相似 性 。 
该 模型 需要 市 注 释 的 问答 配对 作为 训练 数据 ,也 可 以 通过 简单 的 模式 和 多 任务 范式 自动 收集 更 多 的 
训练 实例 。 通过 同时 优化 其 他 资源 或 相关 的 辅助 任务 ， 如 转述 任务 ,该 模型 则 在 确保 相似 的 话语 具 
有 更 高 的 相似 性 ， 从 而 减轻 客服 中 心 对 人 力 的 需求 。 

图 12-2 所 示 的 框架 同样 也 遵循 简单 明了 的 流水 线 式 (有 时 也 叫 管道 ) 结构 ， 即 检索 -能 入 - 比 
较 ， 而 不 依赖 于 人 工 构造 的 特征 、 额 外 的 句法 分 析 或 传统 抽取 模型 所 采用 的 经 验 规 则 那样 ， 并 在 基 
准 数据 集 上 实现 了 具有 竞争 力 的 性 能 。 

为 了 便于 实现 ， 首 先 用 词 袋 模式 来 表示 ， 然 后 经 过 一 个 压缩 过 程 ， 这 个 过 程 忽略 了 自然 语言 问 
题 中 的 句法 结构 。 类 似 的 方法 也 适用 于 候选 答案 ， 其 中 子 图 简单 地 表示 为 其 所 涉及 实体 和 关系 的 
Multi-Hot 形式 。 这 种 简化 的 方法 其 实 是 防止 模型 在 目 然 语言 表示 或 知识 库 本 喘 使 用 更 多 的 信息 来 
源 ， 例 如 问题 中 的 关系 短语 或 答案 类 型 指示 器 ， 或 者 知识 库 中 的 实体 谓词 一 致 性 。 

此 外 , 目前 神经 网 络 模型 的 处 理 方 法 还 不 能 很 好 地 处 理 语义 的 复合 性 ,以 及 除了 词 袋 或 实体 袋 
关系 表示 之 外 的 各 种 约束 ， 如 “小 明 的 父亲 的 母 灯 的 儿子 ”和 “小 明 的 母 灯 的 父亲 的 儿子 ”。 而 在 
茶 种 程度 上 ， 可 以 通过 对 问题 进行 更 深入 的 语法 分 析 ， 或 者 频 款 地 对 知识 库 进 行 结构 挖掘 来 解决 。 


2. 使 用 CNN 嵌入 特征 


Yih SA (2014) 提出 的 是 利用 卷 积 神经 网 络 (CNN) 来 讲解 决 单一 关系 问题 ， 这 与 Bordes 
等 人 在 词 袋 模型 里 处 理 所 有 问题 的 模式 是 不 同 的 。 在 Yih 等 人 的 文章 中 ， 实 际 上 是 使 用 基于 CNN 
的 语义 模型 CCNNSM) 构造 两 个 不 同 的 映射 模型 : 一 个 用 于 标识 问题 中 的 实体 ， 另 一 个 用 于 将 关 
系 映射 到 知识 库 的 关系 。 这 里 需要 说 明 的 是 , 假设 目标 问题 只 包含 一 个 实体 和 一 个 关系 ,这 确实 占 
据 了 各 种 KBQA (基于 知识 库 的 问答 〉 基准 数据 集 的 很 大 比例 ， 而 这 类 问题 的 结构 化 查询 相对 比 
较 简 单 ， 只 涉及 一 个 < 主语 、 谓 语 、 宾 语 > 三 元 组 。 因 此 ， 不 需要 一 个 结构 预测 过 程 来 恢复 多 个 实 
体 和 关系 之 间 固 有 的 查询 结构 。 

其 实 这 里 的 关键 思想 与 Bordes 等 人 提出 的 思想 非常 类 似 ， 即 自然 语言 问题 中 表达 的 关系 模式 
和 结构 化 知识 库 中 的 关系 /谓词 可 以 通过 CNN 投射 到 相同 低 维 度 的 语义 空间 中 。 同样 ， 知 识 库 中 的 
实体 表现 形式 与 问题 中 提 到 的 实体 相同 ， 并 且 可 以 由 CNN 捕获 到 。 因 此 ，CNNSM 可 以 提供 自然 
语言 问题 和 知识 库 中 的 候选 三 元 组 之 间 的 相似 性 ， 并 选择 得 分 最 高 的 一 个 作为 最 终 管 案 。 

这 种 解决 方案 得 益 于 卷 积 神经 网 络 模型 ， 其 优 于 简单 的 词 袋 模式 ， 并 且 在 一 定 程度 上 以 
Letter-Trigrams 问 量 作为 输入 来 处 理 词汇 表 外 COut-Of-Vocabulary; OOV) 问题 。 但 是 ， 这 也 让 我 
们 想起 了 KBQA 任务 中 的 两 个 重要 问题 : 实体 链接 和 关系 识别 ， 它 们 本 喘 都 具有 足够 的 挑战 性 ， 
并 且 需 要 足够 的 训练 数据 ， 即 “分 类 -实体 ”对 和 “上 自然 语言 模式 -知识 库 关 系 ” 对 来 训练 模型 。 特 
别 是 目前 大 型 知识 库 中 存在 大 量 的 实体 和 关系 ， 如 Freebase， 使 得 处 理 多 个 实体 和 关系 的 问题 变 得 
更 加 具有 挑战 性 。 

另 一 方面 ，Dong A (20150 提出 使 用 CNN 对 问题 和 候选 答案 之 间 的 不 同类 型 特征 进行 编 
码 。 他 们 提出 利用 多 列 卷 积 神经 网 络 (Multicolumn Convolutional Neural Network; MCCNNO 模型 
来 捕捉 一 个 问题 的 不 同方 面 ， 并 通过 三 个 渠道 〈 答 案 路 径 、 答 案 语 境 和 答案 类 型 ) 进一步 评分 一 对 
问答 。 
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与 简单 的 向 量 表 示 CBordes 等 ，2014) 相 比 ，MCCNN 使 用 CNN 抽取 不 同 的 特征 ， 这 些 特征 
可 以 显 式 地 捕获 问题 中 的 主题 实体 与 知识 库 上 的 候选 答案 之 间 的 路 径 以 及 期 望 的 答案 类 型 , 这 两 点 
在 评估 一 个 候选 答案 时 显得 尤为 重要 。 通过 向 神经 网 络 中 添加 所 需 的 列 , MCCNN 还 可 以 轻松 扩展 
更 多 类 型 的 功能 。 

对 于 基于 特征 的 模型 ， 实 体 链 接 仍然 是 一 个 悬而未决 的 问题 。 应 答 路 径 的 编码 有 助 于 MCCNN 
在 某 种 程度 上 沿路 径 执行 浅 层 推理 ， 然 而 由 于 典型 的 检索 - 骨 入 -比较 〈Retrieval-Embedding 
-Comparing) 框架 的 性 质 ，MCCNN 仍然 无 法 找到 更 好 的 解决 方案 来 处 理 候选 答案 之 间 的 比较 。 


3. 利用 注意 力 机 制 嵌 入 特征 


Hao 等 人 (2017 F) KA TIU RNN 模型 来 捕获 给 定 问 题 的 语义 。 他 们 认为 ， 一 个 问题 应 该 
根据 不 同 丛 案 不 同方 面 的 关注 点 《答案 方面 可 以 是 答案 实体 本 喘 、 答 案 类 型 、 答 案 语 境 等 ) 以 不 同 
的 方式 表示 。 以 “ 谁 是 百度 公司 董事 长 ? ”为 题 ， 并 将 其 候选 答案 之 一 “李彦宏 ”作为 一 个 例子 。 
在 处 理 答案 实体 “李彦宏 ”时 ， 问 题 中 的 “董事 长 “和 “百度 公司 ”两 个 词 更 加 集中 ， 问 题 表 征 
应 偏 回 于 这 两 个 词 。 而 当面 对 答案 类 型 是 “公司 ”或 “董事 会 成 员 ” 时 ，“ 谁 ” 则 应 该 是 最 突出 的 
词 。 同 时 ， 有 些 问 题 可 能 更 看 重 答案 类 型 而 不 是 其 他 方面 。 在 其 他 问题 中 ， 答 案 的 关系 可 能 是 我 们 
应 该 考虑 的 重要 信息 , 对 于 不 同 的 问题 和 答案 , 它 是 动态 和 灵活 的 。 显然 , 这 需要 一 种 注意 力 机 制 ， 
它 揭示 了 问题 表征 与 相应 答案 方面 之 间 的 相互 影响 。 

在 处 理 答案 不 同方 面 〈 包 括 答 案 路 径 、 答 案 语 境 和 答案 类 型 ) 时 ，Hao 等 人 提出 了 一 种 基于 区 
叉 注意 力 的 神经 网 络 来 执行 KBQA ， 而 不 是 使 用 具有 不 同 参数 的 三 个 CNN 来 表示 问题 。 

交叉 注意 力 模型 代表 问题 和 答案 方面 之 间 的 相互 关注 ， 包 含 两 个 部 分 : 答案 -问题 注意 部 分 和 
问题 -答案 注意 力 部 分 ， 前 者 有 助 于 学 习 灵 活 、 充 分 的 问题 表示 ， 后 者 有 助 于 调整 问答 权重 值 。 最 
后 计算 问题 与 不 同方 面 的 每 个 对 应 候选 答案 之 间 的 相似 度 得 分 ， 并 根据 相应 的 问题 -答案 权重 值 将 
每 个 候选 项 的 最 终 得 分 组 合 在 一 起 ， 选 择 得 分 最 高 的 候选 项 作为 最 终 答案 。 


4. 利用 记忆 机 制 回 答 问 题 


记忆 网 络 是 一 种 新 型 的 学 习 框 架 ， 它 是 围绕 一 种 可 以 在 特定 任务 中 读 取 和 修改 /附加 记忆 机 制 
而 设计 的 (Weston SEA, 20150 。 在 记忆 网 络 范 式 下 ， 基 于 知识 库 问 答 任 务 的 研究 已 经 有 了 一 些 
尝试 ， 主 要 是 遵循 信息 抽取 模式 的 检索 比较 方式 。 

Bordes 等 人 于 2015 年 进行 了 第 一 次 尝试 ， 主 要 侧重 于 简单 问题 的 讨论 ， 问 题 可 以 用 一 个 < 主 
体 、 关 系 、 对 象 > (<subject、relation、object>) 三 元 组 来 回答 。 在 输入 组 件 中 , 我 们 以 bag-of-symbols 
(得 写 袋 ) 的 形式 读 取 结 构 化 的 知识 库 并 将 其 存储 在 记忆 中 ， 并 且 问 题 被 处 理 成 bag-of-ngrams 的 
形式 。 然 后 在 输出 组 件 中 , 将 bag-of-ngrams 化 的 问题 与 记忆 中 的 条 目 进行 比较 以 找到 候选 三 元 组 ， 
并 用 输入 的 问题 进行 求 值 (得 分 ) 。 其 中 ， 得 分 最 高 的 三 元 组 的 对 象 将 由 啊 应 组 件 提供 且 作 为 模型 
给 出 答案 。 这 应 该 是 KBQA 任务 中 记忆 网 络 的 一 种 简单 应 用 ， 实 际 上 显示 了 记忆 网 络 在 管理 大 量 
知识 库 (KB) 条 目 方面 的 潜力 ,甚至 在 管理 来 自 多 个 资源 的 大 量 知识 库 条 目 时 也 是 如 此 , 如 图 12-3 
所 示 。 
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图 12-3 键 - 值 (Key-Value) 记忆 网 络 的 示意 图 (Miller $$, 2016) 


AK) A Miller, 2016) 通过 研究 记忆 机 制 中 各 种 形式 的 键 - 值 (Key-Value) 的 知识 库 进 一 
步 扩 展 了 这 一 思想 ， 改 进 后 的 模型 还 允许 从 记忆 中 读 取 多 个 地 址 来 收集 线索 /上 下 文 ， 从 而 动态 更 
新 问题 以 获得 最 终 答 案 。 键 - 值 (Key-Value) 设计 的 优点 是 使 记忆 机 制 更 加 灵活 地 存储 各 种 知识 ， 
从 知识 库 三 元 组 (主体 + 关系 作为 键 Key， 对 象 作 为 值 Value〉 到 文档 (句子 或 单词 窗口 作为 键 或 
值 ) ， 它 文 持 用 异 构 资源 来 回答 更 复杂 的 问题 。 


12.2.2 语义 分 析 模 式 


语义 分 析 的 思路 是 通过 对 目 然 语言 进行 语义 上 的 分 析 ， 转 化 成 为 一 种 能 够 让 知识 库 “ 看 懂 ” 的 
语义 表示 ， 进 而 对 知识 库 中 的 知识 进行 推理 (Inference) 、 查 询 (Query) 得 出 最 终 的 答案 。 简 而 
言 之 ， 语 义 解析 要 做 的 事情 就 是 将 自然 语言 的 问题 转化 为 一 种 能 够 让 知识 库 “ 看 懂 ” 的 语义 表示 ， 
即 逻 辑 形式 (Logic Form) 。 

“检索 -其 入 -比较 ”框架 其 实 是 受益 于 各 种 神经 网 络 组 件 来 捕获 问答 相似 度 的 ， 并 且 在 简单 的 
问题 中 表现 得 更 好 ， 其 中 的 实体 和 关系 位 于 知识 库 中 简单 化 的 子 图 中 。 但 是 ,它们 并 不 善于 解决 复 
杂 的 语义 组 合 ， 因 为 在 理解 问题 时 并 没有 明确 的 信息 抽取 机 制 来 捕捉 这 种 组 合 。 相 比 之 下 ，KBQA 
中 的 其 他 主流 工作 〈 语 义 分 析 模 式 模型 ) 在 尝试 正式 地 表示 问题 的 含义 ,然后 使 用 知识 库 进行 实例 
化 以 构建 基于 知识 库 的 结构 化 查询 ， 从 而 可 以 显 式 地 捕获 复杂 的 查询 。 

因此 , 这 些 模 型 的 核心 组 件 是 从 上 自然 语言 问题 中 恢复 形式 意义 的 表示 ， 如 逻辑 形式 或 结构 化 查 
询 ， 并 通过 将 表示 映射 到 知识 库 组 件 并 查询 知识 库 ， 从 而 在 知识 库 中 找到 答案 。 深 度 学 习 方 法 的 工 
作 主 要 是 为 了 改进 框架 的 某 些 组 件 。 

也 可 以 将 12.2.1 小 节 中 讨论 的 CNNSM 模型 (Yih 等 ,2014) 看 作 是 一 种 语义 分 析 模 式 的 方法 ， 
它 只 能 产生 一 个 <subject、Ppredicate、objec 人 三 元 组 作为 查询 ， 其 中 CNN 用 于 执行 实体 链接 和 关系 
识别 ， 但 不 适合 用 于 稍微 复杂 的 问题 ， 如 涉及 多 个 实体 和 关系 ， 以 及 约束 限制 方面 。 主 要 是 因为 神 
经 网 络 组 件 只 负责 与 知识 库 组 件 (实体 或 关系 ) 之 间 的 映射 ， 而 没有 明确 的 机 制 来 识别 多 个 实体 或 
关系 之 间 的 内 在 结构 。 事 实 上 ， 在 传统 的 基于 语义 分 析 模 型 中 ， 已 经 通过 PCCG、PCFG、 依 赖 结 
构 或 其 他 句法 、 语 义 分 析 范 式 对 这 些 结构 进行 了 深入 研究 。 
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1. STAGG : 搜索 和 前 枝 时 的 语义 分 析 


除了 单一 关系 问题 ，Yih SEA (20150 建议 使 用 查询 图 的 方式 来 表示 问题 的 含义 ， 其 中 包含 4 
种 节点 : 基础 实体 (Grounded Entity， 标 准 实体 ) 、 存 在 变量 (Existential Variable) 、 入 变量 和 约 
束 /函数 。 在 这 里 ， 入 变量 是 非 标 准 的 实体 ， 并且 有 望 成 为 最 终 的 答案 ; 存在 变量 可 以 指 代 (引用 ) 
中 间 节 点 ， 如 “小 明 的 父亲 的 母亲 ”中 的 “父亲 ”的 表达 ， 或 者 抽象 节点 ， 如 Freebase 中 的 复合 
值 类 型 (CVT) 节点 ， 并 且 约 束 或 函数 被 设计 为 根据 某 些 数值 属性 (如 argmin) 过 滤 一 组 实体 。 
在 查询 图 中 ， 节 点 之 间 通 过 有 癌 边 连接 ， 表 示 两 个 节点 之 间 的 关系 期 望 通过 知识 库 谓 词 进行 映射 ， 
如 图 12-4 所 示 。 


Dumbledore 


12-4 Yih & (20150 提出 的 分 阶段 查询 图 生成 模型 (STAGG) 


然后 ， 任 务 变 成 如 何 将 一 个 自然 语言 问题 转换 成 这 样 的 查询 图 。Yih 等 人 〈2015) 提出 了 一 个 
分 阶段 查询 图 生成 模型 (STAGG) ， 利 用 知识 库 从 头 逐 步 前 枝 搜索 空 间 ， 并 构建 结构 化 查询 。 

STAGG 的 关键 组 件 包括 主题 实体 链接 和 识别 核心 推理 链 ， 最 后 用 约束 和 函数 进行 扩充 ， 这 基 
本 上 是 一 个 逐步 搜索 的 解析 和 排序 过 程 。 这 里 核心 推理 链 捕获 主题 实体 和 lambda 变量 之 间 的 关系 ， 
并 为 查询 提供 主干 文 撑 。Yih FA (20150. 使 用 深度 卷 积 神经 网 络 模型 在 语义 上 匹配 一 个 问题 和 一 
个 谓词 序列 (长 度 为 2， 中 间 有 一 个 CVT 节点 ) 。 

尽管 STAGG 在 基准 数据 集 上 取得 了 成 功 ， 但 是 我 们 可 以 从 STAGG 的 设计 中 吸取 一 些 经 验 。 

主题 实体 : 第 一 步 , 找到 主题 实体 并 链接 到 知识 库 , 也 是 关键 的 一 步 。STAGG 使 用 了 S-MART 
(Yang 和 Chang, 2015) ， 这 是 一 种 短文 本 实体 链接 的 统计 模型 ， 它 对 后 续 步 又 及 整体 性 能 都 起 
着 重要 作用 。 当 将 主题 实体 链接 更 改 为 Freebase API 时 ，STAGG 的 Fl 总 分 下 降 4.1%。 

识别 核心 推理 链 : 基本 上 这 是 一 个 关系 抽取 步骤 , 用 于 捕获 如 何 从 KB 图 上 的 主题 实体 开始 获 
取 入 变量， 通过 CNN 捕获 ， 类 似 于 Yih 等 人 2014 年 提出 的 CNNSM。 鉴 于 所 有 候选 关系 的 巨大 
空间 ，STAGG 仅 考 虑 与 主题 实体 相关 的 那些 候选 项 ， 并 且 捕 获 问 题 如 何在 语义 上 与 主题 实体 周围 
的 KB 关系 序列 匹配 。 因 此 ， 识 别 核心 推理 链 的 这 一 过 程 成 为 匹配 和 排名 (Match-and-Rank) 的 步 
又 ， 同 时 避免 了 大 规模 的 多 分 类 方式 。 

增加 约束 和 聚合 :STAGG 会 将 问题 中 的 其 他 实体 或 时 间 表 达 式 看 成 为 核心 推理 链 的 约束 节点 ， 
并 且 还 会 引入 某 些 函数 以 进一步 过 滤 答 案 ， 如 将 fist. smallest 转换 为 arg min。 通 过 一 组 规则 ， 我 
们 将 看 到 KBQA 系统 会 引入 聚合 函数 作为 正式 表示 的 一 部 分 。 

理解 最 高 级 别 的 表达 方式 : 正如 Berant 和 Liang (2014) 、Zhang ^& (2015) 中 所 讨论 的 那 
样 ， 在 问题 中 可 以 看 到 最 高 级 的 话语 (表达 ) 。 大 多 数 KBQA 工作 都 采用 模板 或 规则 来 分 析 最 高 
级 的 表达 式 ， 只 需 从 arg min 或 arg max 中 进行 选择 即 可 (Berant 和 Liang, 2014; Yih 等 , 2015) 。 
然而 ， 正 式 将 最 高 级 表达 式 分 析 作 为 针对 KB 的 结构 化 比较 结构 ， 将 有 助 于 KBQA 系统 更 好 地 处 
理 最 高 级 的 话语 ， 以 及 那些 具有 序数 约束 的 话语 。Zhang 等 人 (20150 设计 了 一 个 神经 网 络 模型 来 
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学 习 最 高 级 别 话语 和 KB 关系 之 间 的 潜在 对 应 关系 ， 作 为 比较 结构 中 的 比较 维度 。 例 如 ， 从 the 
longest river 到 元 组 <river.length、descending、1>， 我 们 期 望 所 有 river 在 KB 谓词 river.length 上 进 
行 比 较 ( 按 降序 排序 ) ， 排 名 最 高 的 就 是 我 们 的 目标 。 


2. 改善 天 系 识别 


正如 语义 分 析 模 式 工作 中 (Kwiatkowski 等 ，2013; Berant 等 ，2013; Berant 和 Liang，2014) 
所 讨论 的 那样 ， 从 问题 中 识别 KB 关系 /谓词 是 成 功 的 关键 ， 其 中 传统 的 基于 特征 的 模型 难以 捕获 
到 句子 与 KB 知识 库 ) 关系 之 间 的 不 匹配 以 及 上 自然 语言 话语 之 间 的 差异 。 其 实 ， 已 经 有 人 多 次 使 
用 CNN 或 RNN 模型 在 探索 词汇 或 句法 特征 的 关系 提取 中 尝试 应 用 了 深度 学 习 方法 很 多 次 (Zeng 
等 ，2014; Liu 等 ，2015; Xu 等 ，2015) . 

KBQA 中 的 关系 提取 组 件 旨 在 处 理 短 的 语 境 中 基于 KB 的 关系 ,其 中 有 多 达 数 千 个 候选 项 。 一 
种 可 能 的 解决 方案 是 通过 CNN 在 自然 语言 话语 和 KB 关系 之 间 执 行 语 义 匹配 (Yih 等 ,2014 和 2015 )， 
避免 对 数 百 种 关系 进行 直接 分 类 ， 如 图 12-5 所 示 。 
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12-5 ”多 通道 卷 积 神经 网 络 (MCCNN) 模型 示意 图 
Xu A (2016) 提出 了 一 种 多 通道 卷 积 神经 网 络 (MCCNN) 模型 ， 从 词法 和 人 句法 两 方面 学 
JRE, 稳健 的 关系 表示 ,这 些 方 法 更 适合 开放 域 的 KBQA 场景 。 因为 在 一 个 开放 域 的 KB 中 ， 
通常 有 上 千 个 关系 ,传统 的 基于 特征 的 模型 不 可 避免 地 会 遇 到 数据 稀 玉 问题 和 对 未 知 单词 泛 化 能 


“eee 
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3. 神经 符号 机 器 

还 有 另 一 个 有 趣 的 语义 分 析 模 式 的 工作 , 试图 结合 神经 网 络 和 符号 推理 的 优点 来 改善 问答 效果 。 
Liang 等 人 于 2017 年 引入 神经 符号 机 器 (Neural Symbolic Machine，NSM) ， 其 配备 了 一 个 神经 网 
络 组 件 ， 负 责 从 自然 语言 表示 映射 到 可 执行 的 代码 ， 以 及 一 个 符号 组 件 来 执行 代码 ， 以 剪 枝 搜 索 衬 
间 来 找到 答案 。 

具体 来 说 ， 神 经 网 络 组 件 基 本 上 是 一 个 序列 到 序列 模型 ， 它 维护 一 个 关键 变量 存储 器 

(Key-Variable Memory) ， 在 生成 程序 序列 时 处 理 中 间 结 果 。 但 是 ， 神 经 网 络 组 件 和 符号 解释 器 

的 混合 设计 会 使 整个 框架 难以 训练 ， 然 后 要 将 其 转换 为 一 个 强化 学 习 问 题 来 解决 。 


12.2.3 ”信息 抽取 与 语义 分 析 小 结 


综 上 所 述 , 其 实 很 容易 发 现 我 们 不 需要 对 信息 抽取 方法 和 语义 分 析 方 法 进行 明确 的 区 分 。 这 两 
种 观点 确实 各 有 优势 ， 信 息 抽取 CE) 方法 更 多 地 利用 了 新 型 神经 网 络 模型 和 架构 的 优点 ， 以 便 在 
压缩 的 语义 空间 中 更 好 地 表示 问题 和 候选 答案 , 并 且 更 容易 在 模型 结构 中 合并 各 种 特征 表示 。 男 一 
方面 ， 深 度 学 习 为 语义 分 析 〈SP) 模型 提供 了 更 精确 的 关系 或 约束 识别 /映射 ， 并 文 持 更 精确 /复杂 
的 含义 表示 和 推导 。 

事实 上 , 之 前 很 多 的 成 果 都 可 以 被 认为 是 具有 这 两 方面 的 特性 , 尤其 是 那些 针对 简单 问题 或 受 
荔 于 这 两 种 模式 的 成 果 。 例 如 ，STAGG 遵循 传统 的 语义 分 析 模 式 ， 从 一 个 问题 构造 结构 化 查询 ， 
其 分 级 - 艾 校 有 助 于 剪 枝 搜索 空间 ， 从 而 获得 更 好 的 僵 询 结 构 和 整体 性 能 。 我 们 认为 ， 一 些 具 有 信 
恩 抽 取 和 语义 分 析 两 种 模式 优点 的 新 范式 ， 如 记忆 网 络 模 型 和 神经 符号 框架 ， 具 有 足够 的 灵活 性 ， 
可 以 适用 于 更 复杂 的 问题 。 


12.2.4 ”挑战 


随 着 基于 知识 库 问 答 系统 的 发 展 , 已 经 出 现 了 几 个 最 受 关 注 或 讨论 的 问题 , 尤其 是 在 使 用 深度 
学 习 模 型 的 背景 下 。 

1. 组 合 性 

传统 基于 语义 分 析 的 KBQA (基于 知识 库 的 问答 ) 工作 通 第 依赖 组 合 分 类 语法 (CCG) 或 概 
率 从 问题 中 推导 出 其 意义 表示 (Cai 和 Yates，2013; Kwiatkowski 等 ，2013) ， 如 果 不 考虑 这 些 句 
法 结构 ， 如 信息 抽取 模式 的 方法 ， 那 么 在 统一 模型 中 进行 显 式 捕获 是 相对 困难 的 。 因 此 ， 许 多 现 有 
的 工作 (成果) 依赖 于 手工 定义 的 规则 或 模板 来 处 理 组 合 性 (Yih 等 ，2015) 。 

2. 自然 语言 与 知识 库 之 间 的 差距 


我 们 已 经 讨论 过 , 当 答 试 检索 候选 答案 或 将 目 然 语言 话语 与 知识 库 项 目 相 匹配 时 ， 实 体 链 接 和 
关系 抽取 是 两 个 主要 隐 碍 。 其 主要 诛 因 是 目 然 语言 与 知识 库 的 不 匹配 , 包括 语言 方面 上 下 文 的 限制 
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或 省 略 、 子 词汇 的 构 词 性 ， 甚 至 是 知识 库 设计 的 缺陷 。 目 前， 相关 研究 人 员 已 经 提出 了 各 种 神经 网 
络 模型 来 改进 关系 匹配 或 抽取 方法 ， 但 对 实体 链接 任务 的 关注 却 远 远 不 够 ,而 实体 链接 任务 又 是 
KBQA 系统 的 基本 步骤 。 

3. 训练 数据 

关于 训练 数据 方面 ， 其 实 训 练 数据 一 直 是 各 种 机 器 学 习 方 法 中 存在 的 问题 , 尤其 是 神经 网 络 模 
型 ， 它 比 传统 方法 需要 更 多 的 训练 数据 。 在 问答 场景 中 ,收集 问答 配对 的 成 本 是 非常 昂贵 的 ， 更 不 
用 说 任何 好 的 注释 ， 如 逻辑 形式 、 结 构 化 查询 ， 甚 至 实体 和 关系 注释 。 可 能 的 解决 方案 包括 使 用 问 
答 配 对 作为 间接 监督 来 收集 伪 标签 (Yih 等 ，2015; Xu 59, 20160 ， 或 者 使 用 噪声 标签 或 模板 自 
动 收 集训 练 数 据 (Miller 等 ，2016; Bordes 等 ，2014a) 。 

KBQA《〈 基 于 知识 库 的 问答 ) 是 一 项 具有 挑战 性 的 任务 ， 它 需要 许多 NLP 或 琅 技术 ， 如 词汇 
分 析 、 句 法 分 析 、 信 息 抽 取 、 实 体 链 接 、 推 理 等 ， 而 深度 学 习 的 最 新 进展 为 提高 KBQA 提供 了 有 
用 的 工具 或 新 的 框架 ， 这些 在 早期 是 大 家 公认 的 。 我们 相信 ， 神 经 网 络 建 模 与 问答 的 深度 融合 将 会 
给 这 一 领域 带 来 更 多 的 机 过 。 


12.3 ”机 器 理解 中 的 深度 学 习 


12.3.4 任务 摘 述 


机 器 理解 (Machine Comprehension, MC) 是 近年 来 在 自然 语言 处 理 和 人 工 智 能 领域 得 到 广泛 
应 用 的 一 种 新 的 应 用 。 机 器 理解 具备 测试 机 器 阅读 、 处 理 和 理解 文本 的 能 力 。 机 器 理解 遵循 传统 的 
QA HA) 设置 ， 但 仍 存 在 一 些 差 异 。 

(1) 在 传统 的 QA 中 ， 对 于 给 定 的 问题 ， 管 案 的 来 源 可 能 各 种 各 样 ， 比 较 繁 杂 ， 如 基于 知识 
库 的 问答 (KBQA) 、Web 搜索 结果 ， 甚 至 一 些 问 答 平台 (也 称 为 社区 QA) 。 而 在 机 器 理解 中 ， 
上 下 文 的 知识 则 仅 限于 给 定 的 单个 文档 。 

(2) 与 传统 的 QA 相 比 ， 特 别 是 对 于 IRQA 和 KBQA， 机 器 理解 主要 关注 那些 无 法 直接 回答 
的 问题 ， 需 要 根据 给 定 文档 中 的 多 个 实体 或 事件 进行 推理 。 另 外 ， 机 器 理解 中 需要 推理 能 

(3) 与 传统 的 QA 相 比 ， 机 器 理解 中 的 答案 类 型 更 加 多 样 化 ， 从 单个 单词 到 多 个 句子 不 等 。 
此 外 ， 机 器 理解 的 问题 形式 也 是 多 种 多 样 的 ， 如 多 项 选择 题 〈 前 面 提 供 的 答案 候选 项 ) 和 完 形 填空 
式 问 题 〈 没 有 提供 候选 项 ， 需 要 从 系统 中 生成 答案 ) o 

1. 数据 集 

MCTest: 机 器 理解 的 任务 始 于 自然 语言 处 理 (NLP) 社区 。2013 年 ， 微 软 研究 人 员 提 出 了 
MCTest (Richardson 等 ，2013) 数据 集 来 评估 机 器 的 理解 能 力 。 在 MCTest 中 ， 每 个 文档 〈 故 事 ) 
都 与 4 个 问题 相关 联 。 对 于 每 个 问题 , 提供 4 个 候选 答案 , 并 且 系 统 需要 选择 正确 的 答案 。 MCTest 
的 一 个 例子 如 图 12-6 所 示 。 
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Alyssa got to the beach after a long trip. She's from 
Charlotte. She traveled from Atlanta. She' s now in 
Miami. She went to Miami to visit some friends 


The girls went to a restaurant for dinner. The 
restaurant had a special on catfish. Alyssa enjoyed 
the restaurant's special. Ellen ordered a salad. 
Kristin had soup. Rachel had a steak. 


1: one: W/hy did Alyssa go to Ivliami? 
A) swim 

B) travel 

*C) visit friends 

D) laying out 


2: multiple: What did Alyssa eat at the restaurant? 
A) steak 

B) soup 

C) salad 

*D) catfish 


12-6 MCTest 数据 中 故事 和 问题 的 示例 


显然 ，MCTest 是 一 个 标准 的 阅读 理解 数据 集 ， 其 中 的 故事 是 虚构 的 ， 一 些 问题 可 以 从 几 个 句 
子 〈 标 记 为 多 个 ) 中 进行 回答 。 作 者 将 数据 集 分 为 两 个 子 集 ， 包 括 MC160 和 MC500， 分 别 包含 
160 和 500 个 故事 ， 但 是 此 数据 集 的 规模 太 小 ， 有 时 仅 用 作 测 试 设置 。 近 年 来 ， 许 多 研究 者 通常 借 
助 外 部 语言 工具 来 提取 特征 ， 然 后 在 此 基础 上 进行 推理 。 从 MCTest 开始 ， 已 经 发 布 了 几 个 机 器 理 
解数 据 集 。 在 这 里 ， 我 们 主要 介绍 以 下 几 个 标准 的 数据 资源 。 

bAbi: bAbi (Weston 55, 2015) 是 一 个 机 器 理解 数据 集 ， 根 据 作者 的 描述 是 人 工 智能 完全 问 
Bi (自然 语言 处 理 被 认为 是 人 工 智能 完全 问题 (AI Complete) ， 也 就 是 说 ， 如 果 自 然 语 言 处 理 实 
现 了 ， 人 工 智 能 也 就 实现 了 ) 。 总 的 来 说 ，bAbi 包含 20 个 子 任 务 ， 其 中 每 个 子 任务 需要 不 同 的 应 
答 技巧 。 一 些 子 任务 示例 如 图 12-7 所 示 。 


John is in the playground. 
Daniel picks up the milk. 

Is John in the classroom? no 
Does Daniel have the milk? yes 


John is in the playground. 


Bob is in the office. 
Where is John? playground 


single supporting fact 
Yes or No questions 
John is in the playground. 
Bob is in the office. 
John picked up the football. 


The office is north of the bedroom. 
The bedroom is north of the bathroom. 


What is north of the bedroom? office 
What is the bedroom north of? bathroom 


Bob went to the kitchen. 
Where is the football? playground 
Where was Bob before the kitchen? office 


Subject vs. Object 
two supporting facts 


12-7 bAbi 数据 集中 部 分 子 任 务 


由 于 该 数据 集 被 划分 为 不 同 的 类 别 , 因此 不 同 子 任务 上 的 性 能 可 能 会 暴露 出 一 个 模型 在 不 同 问 
题 类 型 上 的 优 缺 点 。 整 个 数据 集 是 由 几 个 人 工 设计 的 规则 自动 合成 和 自动 生成 的 ， 虽 然 规 则 应 该 是 
无 限制 的 , 但 实际 上 生成 规则 仅 基 于 不 超过 100 个 单词 。 因 此 ， 此 数据 集中 的 某 些 问题 或 文档 是 重 
复 的 。 由 于 bAbi 是 由 规则 自动 合成 的 ， 因 此 被 利用 的 算法 或 系统 更 可 能 接近 所 使 用 的 生成 规则 。 

SQuAD: SQuAD (Rajpurkar 等 ，2016) 是 斯 坦 福 问 答 数据 集 ， 是 最 近 发 布 的 一 个 人 工 创 建 的 
大 型 机 器 理解 数据 集 。 该 数据 集 包 含 近 100 000 个 “文档 -问题 ”配对 ， 这 些 文档 来 源 于 维基 百科 


页 面 , 然后 注释 者 根据 这 些 文档 提出 一 些 问题 , 并 在 文档 中 标注 出 相应 的 答案 。 请 注意 , 在 SQuAD 
中 没有 提供 候选 答案 。 系 统 可 以 通过 预测 答案 在 文档 的 开始 和 结束 位 置 来 “生成 ”答案 。 这 里 的 问 
题 示 例如 图 12-8 所 示 。 


In meteorology, precipitation is any product of the condensation 
of atmospheric water vapor that falls under gravity. The main 
forms of precipitation include drizzle, rain, sleet, snow, graupel 
and hail... Precipitation forms as smaller droplets coalesce via 


collision with other rain drops or ice crystals within a cloud. Short, 
intense periods of rain in scattered locations are called "showers". 


Where do water droplets collide with ice crystals to form precipitation? 


12-8 SQuAD 数据 集中 问题 示例 
此 外 ， 最 近 还 发 布 了 几 个 与 SQuAD 规模 和 形式 都 相似 的 机 器 理解 数据 集 ， 如 NewsQA 7 和 


Marco. 

完 形 填空 式 机 器 理解 数据 集 : 除了 机 器 理解 中 提 到 的 QA 形式 之 外 , 完 形 填空 式 查 询 (Taylor， 
1953) 也 是 其 中 的 基本 形式 之 一 。 这 种 类 型 具有 阅读 理解 的 大 部 分 特征 , 但 答案 只 是 文档 中 的 一 个 
单词 。 实 际 上 ， 最 近 提 出 了 许多 这 类 的 数据 集 ， 如 CNN/Daily Mail (Hermann 等 ，2015) 和 CBT 

(Hill 55, 2015) 。 在 CNN/Daily Mail 中 ， 作 者 提出 了 一 种 从 两 个 新 闻 语 料 库 中 目 动 生成 完 形 填 
空 的 方法 , 每 条 新 闻 报 道 都 有 一 个 标题 或 摘要 。 如 果 作 者 删除 标题 中 的 一 个 具体 名 词 ， 系 统 就 需要 
根据 给 定 的 文档 来 填充 这 个 占 位 符 , 为 了 避免 语言 建 模 或 超出 文本 理解 范围 的 现实 世界 知识 的 影响 ， 
作者 对 文档 和 查询 中 涉及 的 所 有 实体 进行 了 匿名 化 处 理 。 在 CBT 中 , 每 个 文档 包含 20 个 连续 的 句 
子 ， 第 21 句 中 有 一 个 词 被 移 去 了 。 为 了 避免 在 阅读 理解 中 使 用 基于 语言 建 模 的 方法 ， 管 案 仅 限于 
专 有 名 词 。 图 12-9 给 出 了 CNN/Daily Mail 的 一 个 例子 。 

( @entity4 ) if you feel a ripple in the force today , it may be the news that the 
official @entity6 is getting its first gay character . according to the sci-fi website 
@entity9 , the upcoming novel " @entity11 " will feature a capable but flawed 


(Qentity13 official named @entity14 who " also happens to be a lesbian . " 
comics and books approved by (Qentity6 franchise owner @entity22 -- according 


to @entity24 , editor of " @entity6 " books at (Qentity28 imprint @entity26 . 


QUESTION: 
characters in " (Qplaceholder " movies have gradually become more diverse 


12-9 CNN/Daily Mail 数据 集 的 示例 
2. 实现 机 器 理解 的 知识 需求 
机 器 理解 是 一 项 综合 性 的 推理 任务 ， 需 要 对 自然 语言 有 深入 地 理解 。 在 心理 学 中 ,理解 来 自 于 
词语 之 间 的 相互 作用 ， 这 些 词语 可 以 触发 给 定 段 落 、 文 档 内 部 和 外 部 的 知识 。 它 是 一 个 创造 性 的 、 
多 方面 的 过 程 ， 依 赖 于 4 种 语言 技能 : 语音 学 、 语 法 学 、 语 义学 和 语 用 学 。 对 于 机 器 理解 问题 ， 要 
实现 真正 的 理解 甚至 还 需要 理解 多 个 子 句 (从 句 ) 之 间 的 关系 ,例如 , 要 理解 事件 之 间 的 时 间 关 系 ， 
隐 式 地 需要 识别 连接 词 (when, as, since, ...) 、 时 间 索 引 词 (morning, evening, ...) 、 时 态 和 方 
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位 〈Aspect， 笔 者 认为 也 可 以 是 角度 ) (went, is going, will go, ...) 等 表达 式 。 此 外 ， 还 需要 其 他 
推理 技巧 ， 例 如 数学 运算 需要 回答 与 算术 问题 有 关 的 问题 ， 如 “汤姆 有 4 文 铅 笔 ， 给 了 同 果 2 x. 
他 还 剩 几 支 铅 笔 ? ”， 需 要 回答 这 类 问题 的 系统 应 该 推断 出 等 式 “4-2=2”。Sugawara SEA (2017) 
提出 了 机 器 理解 需要 的 10 个 技能 ， 如 图 12-10 所 示 。 


List/Enumeration Tracking, retaining, and list/enumeration of entities or states 
Mathematical operations Four arithmetic operations and geometric comprehension 
Coreference resolution Detection and resolution of coreference 
Logical reasoning Induction, deduction, conditional statement, and quantifier 
Analogy Trope in figures of speech, e.g., metaphor 
Spatiotemporal relations Spatial and/or temporal relations of events 
Causal relations Relations of events expressed by why, because, the reason for, and so on 
Commonsense reasoning Taxonomic knowledge, qualitative knowledge, action and event changes 
Schematic/Rhetorical clause Coordination or subordination of clauses in a sentence 
relations 
Special sentence structure Scheme in figures of speech, constructions, and punctuation marks in a sentence 


12-10 ”机 器 理解 需要 的 技能 


一 般 来 说 ， 机 器 理解 涉及 处 理 许多 语言 模式 (Pattem) ， 如 词汇 、 句 法 或 高 级 语 篇 、 释 义 。 为 
了 对 这 些 特征 进行 建 模 ， 根 据 方法 论 的 观点 ， 可 以 将 当前 的 方法 分 为 两 部 分 : 基于 特征 工程 的 方法 
和 基于 深度 学 习 的 方法 ， 接 下 来 我 们 对 此 将 做 一 些 曾 述 。 


12.32 ”基于 特征 工程 的 机 器 理解 方法 


目前 , 现 有 的 基于 特征 工程 的 方法 通常 是 将 文本 理解 任务 建 模 为 计算 给 定 问题 与 文档 或 段落 之 
间 语 义 相似 性 的 任务 。 这 些 方法 试图 通过 基于 POS 标记 的 特征 、 依 存 分 析 特 征 、 共 指 、 引 用 等 浅 
层 语言 学 特征 对 句子 和 文档 的 语义 进行 建 模 。 基 于 不 同 的 特征 ， 可 以 捕获 不 同类 型 的 语义 ， 如 词汇 
层次 语义 、 语 篇 《有 时 也 叫 话语 ) 的 语义 等 。 

1. 词汇 匹配 

词汇 匹配 是 机 器 理解 任务 中 一 种 简单 而 有 效 的 方法 ,这 种 方法 通常 采用 一 种 基于 滑动 窗口 的 算 
法 ， 通 过 为 每 个 与 问题 文本 配对 的 答案 形成 词 袋 问 量 ， 并 对 这 些 候选 答案 进行 排名 Rank) . 7A 
后 根据 每 个 候选 项 与 故事 文本 的 重 登 程度 对 它们 进行 评分 , 并 计算 出 得 分 最 高 的 候选 项 具体 来 说 ， 
这 个 算法 在 整个 故事 文本 上 滑动 一 个 窗口 , 该 窗口 的 大 小 等 于 问答 配对 中 的 单词 个 数 。 故事 文本 窗 
口 和 问答 配对 之 间 的 最 高 重 登 分 数 将 被 作为 答案 的 对 应 分 数 。 

史密斯 等 人 2015) 通过 多 次 取舍 ， 并 对 获得 的 分 数 求 和 来 对 每 个 答案 进行 评分 。 具 体 而 言 ， 
它们 从 窗口 大 小 2 开始 并 将 其 增加 到 30《〈 即 30 个 切 分 词 ) ， 然 后 将 这 些 得 分 与 整个 故事 中 “问题 
-答案 ”配对 的 总 匹配 数量 结合 起 来 。 正 如 他 们 宣称 的 那样 ， 这 种 解决 方案 可 以 让 系统 捕捉 到 故事 
中 的 远 距 离 关 系 。MCTest 上 诛 有 的 和 增强 的 靖 动 窗口 词法 匹配 方法 的 比较 结果 如 表 12-1 HR. 
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表 12-1 MCTest 上 词汇 匹配 方法 的 表现 情况 


增强 型 滑动 窗口 Enhanced sliding window(96) 


72.65 
63.57 


2. 话语 ( Discourse , Efa ) 关系 


回答 一 个 问题 所 需 的 相关 信息 可 以 分 布 在 多 个 句子 中 ,理解 这 些 句 子 之 间 的 语义 关系 对 于 找到 
正确 答案 是 很 重要 的 。 以 图 12-11 为 例 ， 为 了 回答 “为 什么 钞 莉 罕 上 她 的 鞋子 ”的 问题 ， 我 们 需要 
推断 出 “她 穿 上 鞋子 ”和 “她 外 出 散步 ”之 间 存 在 因果 关系 。 
Sally liked going outside. She put on her shoes. She went outside to 
walk. [...] Missy the cat meowed to Sally. Sally waved to Missy the cat 


[...] Sally hears her name. "Sally, Sally, come home", Sally's mom calls 
out. Sally runs home to her Mom. Sally liked going outside. 


Why did Sally put on her shoes? 


A) To wave to Missy the cat 

B) To hear her name 

C) Because she wanted to go outside 
D) To come home 


12-11 一 个 需要 多 句 推 理 的 问题 示例 
实际 上 ,一些 先 前 的 研究 成 果 已 经 证 明了 话语 关系 在 一 些 领域 应 用 中 存在 的 价值 , 如 问答 领域 
(Jansen 等 ，2014) 。Narasimhan 和 Barzilay 于 2015 年 提出 了 三 种 模型 ， 将 话语 关系 纳入 了 机 器 
理解 系统 中 。 
将 文档 中 的 句子 表示 为 zZ， 问 题 表 示 为 9， 答案 表示 为 a。 
模型 1: 
P(a,z|q;)=P(z|q;)P(a|z,q;) (12.1) 


EAR 2.1) 中 , 我 们 将 联合 概率 定义 为 两 个 分 布 ( 有 的 称 为 两 个 分 量 概率 ) 的 乘积 。 其 中 ， 
第 一 分 布 是 问题 中 给 定 段落 里 句子 的 条 件 分 布 , 这 是 为 了 帮助 识别 出 回答 问题 所 需 的 句子 ; 第 二 个 
分 布 是 通过 给 定 问 题 q 和 句子 z 来 对 选择 答案 的 条 件 概率 进行 建 模 。 我 们 可 以 使 用 指数 族 来 得 到 这 
些 分 量 概率 ， 即 P(z | q) x expteagatqa2) 和 P(z | a,q) x exp(9292(4.%z))， 其 中 8 是 特征 向 量 ，9 代表 
关联 权重 值 (Associate Weight) 。 对 文档 中 所 有 人 句子 z 求 和 ， 可 以 得 到 具体 答案 的 概率 a;j: 


通过 这 种 方式 可 以 将 目标 似 然 函数 (Likelihood Objective Function〉 写 成 : 
L,(0) = log} j XP (Qj, Zn | qj) (12.3) 


模型 2: 
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上 述 模 型 只 能 一 次 考虑 一 个 支持 句子 〈 即 z) ， 当 然 ， 也 可 以 把 它 扩展 到 多 个 句子 。 我 们 对 给 
定 的 问题 使 用 多 个 相关 句子 ， 在 这 种 情况 下 ， 联 合 模型 的 定义 如 下 : 


P(a,2,221q) = P(z | q)P (22 | z1,4)P (a | ziz2q) (12.4) 


给 定 问 题 q， 我 们 首先 预测 与 概率 P 了 (zi| q) 相关 的 第 一 个 句子 文 持 句 zi. 25588 qM z, 
接着 推理 出 第 二 个 句子 支持 句 zs， 最 后 答案 a 便 是 模型 预测 出 的 结果 。 


模型 3: 


该 模型 试图 直接 指定 问题 之 间 的 话语 关系 ,然后 利用 这 种 关系 对 文档 中 的 其 他 相关 句子 进行 推 
理 。 具 体 来 说 ， 模 型 3 添加 了 一 个 隐藏 变量 rER 来 表示 关系 类 型 ， 它 集成 了 将 问题 类 型 与 关系 类 
型 联系 在 一 起 的 特性 ， 还 利用 关系 类 型 来 计算 句子 之 间 的 词汇 和 人 句法 相似 性 。 

关系 集 R 由 以 下 关系 组 成 。 

COD 因果 关系 : 事件 的 原因 或 事实 的 原因 。 

(2) 时 态 : 事件 的 时 间 顺 序 。 

(3) 说 明 : 主要 处 理 how-type 的 问题 。 

(4) 其 他 : 上 述 三 种 关系 以 外 的 关系 (包括 非 天 系 non-relation ) 。 

现在 ， 我 们 对 等 式 〈12.4) 中 的 联合 概率 进行 修改 ， 加 入 关系 类 型 r， 结 果 如 下 : 


P(a,r,z,z,19) 2 P(z, 1 q)P(rl qg)P(zz; 1 z,vr,q)P(alz, z,r,q) (12.5) 


其 中 ， 新 增 的 分 量 (Component) P(rlg) 是 取 雇 于 问题 的 关系 类 型 r 的 条 件 概 率 。 因 此 ， 该 模 
型 可 以 学 习 诸如 对 应 于 因果 关系 的 why-questions。 下 面 我 们 给 出 这 三 种 模型 的 结果 情况 , 如 表 12-2 
所 示 。 


表 12-2 MCTest 上 三 种 模型 的 准确 性 情况 


mE MC160 MC150 


ANG) 
6358 
Model 2 27s 
63.15 


KB, Single 是 指 只 需要 一 个 文 持 句子 就 能 回答 的 问题 ，Multi 是 指 需要 多 个 句子 才能 回答 的 
问题 。 

3. 缠 涵 答案 ( Answer-Entailing ) 结构 

以 前 的 一 些 NLP 研究 成 果 得 益 于 学 习 两 个 文本 片段 之 间 的 潜在 结构 。 例 如 ， 在 识别 文本 强 涵 
(RTE) 时 ， 可 以 通过 它们 之 间 的 某 些 潜在 对 齐 从 其 前 提 中 推断 出 该 假设 。 在 机 器 理解 中 ， 我 们 还 
可 以 将 这 种 蕴涵 (Entailing)〉 结构 信息 纳入 其 中 。 在 图 12-6 所 示 的 例子 中 ， 为 了 回答 第 二 个 问题 ， 
我 们 可 以 使 用 一 些 句 法 规则 将 问题 和 一 个 候选 答案 转换 成 语句 。 例 如 ， 候 选 答案 之 一 是 钱 色 
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(catfish) ， 我 们 将 其 与 相关 查询 组 合成 一 个 陈述 语句 : Alyssa 在 餐厅 吃 铃 鱼 Ccatfish) 。 把 这 个 
陈述 作为 一 个 假设 ， 文 档 作为 前 提 ， 我 们 可 以 推断 出 这 个 强 涵 《Entailment〉 的 概率 。 此 时 ， 我 们 
可 以 给 出 该 例 推理 过 程 的 示意 图 ， 如 图 12-12 所 示 。 


Question: Answer: 


What did Alyssa eat at the restaurant ? catfish 


8 


Statement: Alyssa eat catfish at the restaurant 


Document: ... The restaurant had a special on catfish ... Alyssa enjoyed the restaurant's special... 


12-12 MCTest 里 一 个 荀 涵 答案 结构 的 示例 图 


这 里 我 们 考虑 的 至 涵 答 案 结构 可 以 将 文本 中 的 多 个 句子 与 假设 对 齐 , 并 且 对 齐 文本 中 的 句子 并 
不 限于 在 文本 中 连续 出 现 。 为 了 实现 这 种 不 连续 的 对 齐 ，Sachan 等 人 (20150 利用 了 文档 结构 ， 
尤其 是 他 们 借助 于 修辞 结构 理论 , 可 以 捕捉 到 事件 或 实体 在 句子 之 间 的 共 指 联系 。 他 们 使 用 潜在 结 
构 SVM (LSSVM) 专门 训练 了 一 种 最 大 边际 方式 (Max-Margin Fashion) ， 其 中 蕴涵 答案 的 结构 
是 潜在 的 。MC500 上 这 种 强 涵 答案 模型 的 实验 结果 如 表 12-3 所 示 。 


表 12-3 MC500 上 蕴涵 答案 模型 的 准确 率 


|. enge mpe [AL o 


62.65 6759 6783 


4. 基于 特征 工程 方法 所 面临 的 挑战 

基于 特征 工程 的 方法 是 处 理 机 器 理解 问题 的 一 种 有 效 而 明确 的 方法 ,它们 通常 利用 几 种 语言 特 
征 来 建 模 对 给 定 文 档 和 问题 之 间 的 语义 关系 进行 建 模 , 然后 根据 这 些 特征 进行 推理 , 该 过 程 清晰 且 
易于 理解 该 方法 中 出 现 的 问题 ， 但 是 这 些 语 言 特征 有 时 需要 通过 经 验 或 启发 式 实验 来 获得 。 另 外 ， 
它们 严重 依赖 于 独立 的 语言 工具 ， 如 词性 标注 、 语 法 分 析 器 等 ， 这 可 能 会 给 系统 带 来 噪声 。 因 此 ， 
特征 工程 方法 通常 以 MCTest 等 机 器 理解 数据 为 研究 对 象 ， 而 对 于 一 些 大 规模 的 机 器 理解 数据 集 ， 
如 SQuAD 和 bAbi, 现 有 的 基于 特征 工程 的 方法 很 难 从 文本 中 进行 设计 并 提取 出 有 效 的 特征 。 近 年 
来 , 随 着 深度 学 习 在 计算 机 视觉 和 语音 识别 方面 取得 的 巨大 成 功 , 越 来 越 多 的 研究 人 员 开 始 关 注 基 
于 深度 学 习 的 机 器 理解 技术 。 


12.3.8 ”机 怖 理解 中 的 深 度 学 习 方法 


对 于 机 器 理解 任务 , 我 们 将 介绍 几 种 流行 的 基于 不 同 数据 集 的 深度 学 习 方 法 。 现 在 给 定 一 个 文 
Fi d 和 一 个 问题 g， 对 选择 答案 a 的 概率 情况 可 以 进行 如 下 建 模 : 


P(a | d, q) x exp(W (a)g(d, q)) (12.6) 
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其 中 ，W(a) 表 示 答 案 候选 项 a WRA, gd ARRA E A ag 下 文档 d 的 藤 入 。 关 键 的 部 分 是 
计算 函数 g(d,9)， 可 以 应 用 若干 深度 神经 网 络 , 如 RNN、LSTM 和 记忆 网 络 (Weston 等 , 2015b) 。 
1. 基于 LSTM 的 编码 器 


长 短期 记忆 网 络 (LSTM) 己 被 证 明 能 够 有 效 地 将 序列 数据 建 模 为 同 量 ,因此 ,为 了 对 函数 g(d,q) 
进行 建 模 ，Hermann 等 人 【2015) 将 相关 文档 一 次 性 输入 到 基于 LSTM 的 编码 器 中 。 问 题 q 也 在 
分 隔 符 之 后 被 提供 给 该 编码 器 。 这 样 给 定 文档 d 和 问题 q 的 配对 可 以 是 一 个 很 长 的 单 序列 ， 如 图 


12-13 所 示 。 
d 人 — ps d Ls umm Y 
p m ES mey p [o / 
q 


d 


12-13 ”给 定 文档 d 和 问题 q 的 配对 可 以 是 一 个 很 长 的 单 序列 
2. 双 同 注意 力 编码 器 


KAAF LSTM 很 难 在 长 距离 上 传播 依赖 关系 ， 所 以 信息 在 从 一 个 组 件 到 另 一 个 组 件 的 传输 
过 程 中 会 慢 慢 衰减 ， 进 而 使 得 文档 的 语义 不 能 被 准确 地 编码 。 因 此 ， 越 来 越 多 的 研究 人 员 采 用 双 回 
LSTM 模型 对 序列 数据 进行 编码 。 另 外 , 文档 d 中 并 非 所 有 的 句子 或 上 下 文 都 与 给 定 的 问题 q 有关 
联 。 例 如 ， 这 里 有 一 个 文档 4， 其 内 容 是 “迈克 尔 。 乔 丹 在 1993-94 赛季 开始 之 前 突然 从 芝加哥 公 
牛 队 退役 , 去 追求 自己 的 棒球 职业 生涯 ”。 当 问题 q 是 “ 迈 殉 尔 。 乔 丹 何 时 从 NBA 退役 的 ? ”时 ， 
文档 d 中 的 关注 点 应 该 是 “在 1993-94 赛季 开始 之 前 ”。 当 问题 q 是 “迈克 尔 乔 丹 从 NBA 退役 后 
参加 了 哪 项 运动 ? ”时 ,文档 d 中 的 关注 点 应 该 是 “追求 棒球 生涯 ”。 也 就 是 说 ， 在 处 理 不 同 的 问 
题 时 ， 我 们 应 该 对 文档 d 中 不 同 部 分 给 予 不 同 的 关注 。 因 此 , 将 注意 力 机 制 引入 深度 神经 网 络 也 是 
很 自然 的 事情 。Chen SEA (20160 提出 了 一 种 具有 注意 力 机 制 的 双 回 编码 模型 (BIDEA) ， 该 模 
型 在 CNN/Daily Mail 数据 集 上 取得 了 良好 的 性 能 。 

关于 该 模型 的 结构 其 实 是 非常 直观 的 ， 其 预测 答案 的 过 程 主 要 包括 以 下 三 个 步 又。 


C12 编码 : 在 所 有 词 被 映射 到 d 维 癌 量 之 后 , 段落 p(d) 和 查询 q 可 以 被 分 别 表示 为 py, pz …, pm 
和 qi gz …,49.。 因 此 ， 段 落 p 的 上 下 文 信息 可 以 通过 下 面 的 公式 计算 得 到 。 
— per 
hj — LSTM (hi, pi).i -T lr m 
《一 一 
hi = 了 STM pi), i 9 m,...,1 


~ 一 > 《一 
pi = concat(h;, hi). 
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同时 ， 问 题 可 以 以 相同 的 方式 由 另 一 个 LSTM ERAS q (单个 同 量 ) 中 。 
(2) 注意 力 : 六 中 的 所 有 文本 信息 可 以 通过 以 下 方式 组 合 进 输出 回 量 0 中 。 


ai = softmax;q! Wsp, 


0= 》uip 
i 


在 上 述 等 式 中 ，Ws e RC) fg] T- 3| EHA q 与 段落 pi 中 单词 之 间 的 相似 性 。 
(3) 预测 : 预测 答案 a 的 计算 方法 如 下 。 
a = argmax(aepng)Wa O 
其 中 , E RAER, Wittm dH OIM E a 27 18] B] UI EC E s 
虽然 上 述 模型 的 计算 非常 简单 ， 但 是 在 数据 集 CNN/Daily Mail. 上 却 获得 了 非常 好 的 性 能 表现 
(实验 结果 如 表 12-4 所 示 ) 。 根 据 Chen 4& A (2016) 的 分 析 ， 其 提出 的 模型 的 有 效 性 是 由 于 : © 

CNN/Daily Mail 的 推理 水 平 仍然 很 简单 ， 可 以 用 一 个 简单 的 模型 来 处 理 ; @ 各 类 模型 在 CNN/Daily 
Mail 上 己 经 达到 了 性 能 上 限 ， 甚 至 可 以 通过 信息 检索 系统 对 该 语料库 很 好 地 做 处 理 。 


表 12-4 BIDEA 等 模型 在 CNN/Daily mail 上 的 实验 结果 


Daily mai 
al [Tes 


a 
Attentive reader (Henmam 等 ,2015) jae — [eo [os |oo 
= |- 
E 
p. |-  |- -—. 
Iterative attention (Sordoni 5&5, 2016) 73.3 -—— 1 —] 
nmo | 一  [- 
[AvAmwer Cd, D la — [m4 d | 一 o o 

5.8 


BIDEA (Chen P. 2016 


此 外 ， 为 了 以 不 同 颗 粒度 表示 上 下 文 并 实现 查询 感知 的 上 下 文 表 示 ，Seo 等 人 (20160 采用 多 
级 递 阶 过 程 提 出 了 用 于 机 器 理解 任务 的 双 回 注意 力 网 络 (BiDAF) 。 
如 图 12-14 所 示 ， 模 型 主要 由 以 下 6 层 组 成 。 
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字符 诺 入 层 : 字符 级 别 的 CNN， 可 以 将 单词 中 的 字符 映射 到 连续 向 量 。 
RAA: 预先 训练 的 词 向 量 和 矩阵 。 

ALHREUNJE: 双向 LSTM 层 ， 可 以 捕获 单词 的 上 下 文 信息 。 

注意 力 层 : 相似 性 矩阵 S， 测 量 来 自 两 个 方向 的 上 下 文 和 查询 词 之 间 的 相似 性 ， 即 上 下 文 
到 查询 和 查询 到 上 下 文 。 

e 建 模 层 : 包含 所 有 单词 上 下 文 信息 的 两 层 双 向 LSTM. 

e 输出 层 : 两 个 逻辑 回归 模型 ， 分别 捕 获 起 始 索 引 和 结束 索引 。 


Output Layer Dense* — LSTM 
Softmax Softmax 


Modeling Layer 2-layer LSTM Encoder 


Query2Context and 
Attention Flow Layer i q—À 
Context2Query Attention 


| A A 
Char Embedding Layer B B 


12-14. 双向 注意 力 模型 图 


如 表 12-5 所 示 ，SQUAD 上 的 实验 结果 表明 ，BiDAEF 的 方法 带 来 了 性 能 的 提高 ， 这 可 能 是 
T BiDAF 在 层级 中 具有 发 现 支 持 证 据 的 开始 点 和 结束 点 的 能 力 所 引起 的 。 


表 12-5 BiDAF 等 模型 在 SQUAD 测试 集 上 的 实验 结果 


a M T 


Hidden State Sequence Hidden State Sequence 


Phrase Embedding Layer 


Word Embedding Layer 


BiDAF (Seo 3. 2016) 
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3. 记忆 网 络 ( Memory Network ) 


Weston 等 人 于 2015 年 提出 了 记忆 网 络 ,用 于 解决 序列 神经 网 络 中 信息 的 衰减 问题 。 它 还 可 以 
用 推理 组 件 和 长 期 记忆 组 件 (实际 上 是 一 个 矩阵 或 张 量 ， 它 的 名 字 就 是 从 这 里 来 的 ) 进行 推理 。 总 
的 来 说 ， 它 包括 以 下 4 个 主要 组 成 部 分 。 


I (输入 特征 映射 ) 将 输入 向 量 转换 为 内 部 特征 表示 。 
G ( 泛 化 ) 根据 新 的 输入 更 新 现 有 记忆 。 
O (输出 特征 映射 ) 根据 新 的 输入 和 当前 记忆 状态 计算 新 的 输出 。 

e 及 (响应 ) 将 输出 转换 为 所 需要 的 响应 格式 。 

图 12-15 给 出 了 MemNN (Memory Network) 的 示意 图 。 记 忆 网 络 的 一 种 重要 形式 是 端 到 端 记 
忆 网 络 ， 我 们 将 其 缩写 为 MemN2N。MemN2N 的 一 个 优点 是 可 以 以 端 到 端的 方式 进行 训练 ， 这 意 
味 着 其 需要 较 少 的 监督 信息 ， 并 且 更 普遍 地 适用 于 真实 场景 。 以 下 等 式 分 别 是 I、G、O 和 RR 中 的 
计算 情况 : 

€ Ip;—Softmax(ur,m;) ,其 中 mm i-Ax; (Xi 是 输入 句子 的 误 入 向 量 ) ; u= Bq (q 是 输入 

查询 ) 。 

€ G 在 MemN2N 中 ， 记 忆 尚 未 被 更 新 。 

€ Oo=7ipic， 其 中 ci = Cxi. 

€ Ra= Softmax(W(o + u)). 


另外 ， 通 过 以 下 方式 很 容易 将 网 络 层 插入 到 MEMN2NS F. 


e 第 (k+1) 层 的 可 以 计算 为 utD = uk + ok, 
e 每 层 都 有 自己 的 AK 和 CK。 
e 预测 可 以 通过 4 = Softnax(Wu* 9) it F. 


Answer a 


Passage 


| II 
G 
= 
Er 
= 


Question q 


12-15 ”用 于 bAbI 任务 的 记忆 网 络 示意 图 
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MemN2N 最 初 应 用 于 bAbI 任务 中 的 20 个 任务 。 最 佳 的 MemN2N 性 能 接近 于 监督 模型 , 位 置 
编码 (PE) 表示 优 于 词 袋 (BoWO 模型 ， 线 性 (LS) 训练 有 助 于 避免 局 部 极 小 值 ， 联 合 训练 有 助 
于 完成 所 有 任务 。 

除了 记忆 神经 网 络 ， 值 得 注意 的 是 ，G 中 的 计算 实际 上 是 一 种 注意 力 机 制 。 而 记忆 网 络 是 第 一 
个 将 外 部 知识 保存 在 指定 矩阵 中 的 模型 , 它 对 自然 语言 处 理 的 各 种 深层 模型 中 的 记忆 机 制 的 发 展 有 
着 重要 影响 。 


12.4 ”利用 TensorFlow 实现 问答 任务 


IE (QAO 系统 是 一 个 旨 在 为 回答 自然 语言 提出 的 问题 而 设计 的 系统 。 一 些 QA 系统 从 诸如 
文本 或 图 像 之 类 的 信息 源 中 获取 信息 以 回答 具体 的 问题 。 这些 依赖 “信息 来 源 ” 的 系统 可 以 分 为 两 
个 主要 子 类 别 : 开放 领域 ， 它 需要 回答 的 问题 几乎 可 以 是 里 面 的 任何 选项 ， 不 限于 特定 领域 : 封闭 
领域 ， 它 涉及 的 问题 具有 一 些 特定 的 限制 ， 因 为 它们 是 与 一 些 预 定义 的 信息 源 相 关 《〈 如 提供 的 上 下 
文 或 类 似 于 医学 等 特定 领域 ) 。 

我 们 将 创建 一 个 基于 神经 网 络 的 QA 系统 ， 并 使 用 封闭 领域 的 信息 来 源 。 为 了 做 到 这 一 点 , 我 
们 使 用 Ankit Kumar 等 人 在 其 论文 《Ask Me Anything: Dynamic Memory Networks for Natural 
Language Processing》 中 介绍 的 动态 记忆 网 络 (Dynamic Memory Network, DMN) 的 人 简化 版 本 ( 读 
者 也 可 以 自行 查阅 ， 笔 者 在 https://arxiv.org/abs/1506.07285 上 获取 到 该 文 ) 。 


12.4.1 bAbl 数据 集 


对 于 这 个 项 目 ， 我 们 使 用 Facebook 创建 的 bAbI 数据 集 ， 与 所 有 QA 数据 集 一 样 ， 此 数据 集 包含 
了 我 们 需要 的 所 有 问题 信息 。bAbI 数据 集中 的 所 有 问题 都 有 一 个 与 之 相关 的 上 下 文 ， 这 是 一 个 句子 序 
列 ， 以 便 能 够 保证 回答 问题 时 存 有 所 必需 的 详细 信息 。 此 外 ， 数 据 集 还 为 每 个 问题 提供 了 正确 答案 。 

根据 回答 问题 所 需 的 方法 ，bAbI 数据 集中 的 问题 被 划分 为 20 个 不 同 的 子 任务 。 每 个 子 任务 都 
有 目 己 的 一 套 训练 问题 集 和 一 套 单独 的 测试 问题 集 , 这 些 子 任务 测试 各 种 标准 的 自然 语言 处 理 能 
包括 时 间 推 理 和 归纳 逻辑 。 为 了 更 好 地 了 解 这 一 点 , 我 们 来 看 一 个 QA 系统 将 要 回答 问题 的 具体 示 
例 ， 如 图 12-16 所 示 。 


Context 


Fred picked up the apple there. Bill travelled to the kitchen. Bill got the milk there. Jeff went to the kitchen. 
Bill passed the milk to Jeff. Jeff handed the milk to Bill. 


Question Answer 


Who did Jeff give the milk to? Bill 


12-16 bAbI 数据 集 示 例 图 (图 片 来 源 : Steven Hewitt) 
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上 图 中 灰色 部 分 为 上 下 文 (或 语 境 ) ， 无 背景 颜色 的 为 问题 及 其 对 应 答案 (斜体 为 答案 ) 。 

此 任务 测试 神经 网 络 对 于 这 三 个 对 象 之 间 内 在 关系 所 涉及 相关 运算 或 操作 的 理解 .从 语法 上 讲 ， 
该 任务 将 测试 系统 是 否 能 够 区 分 主语 、 直 接 宾语 和 间接 宾语 。 在 本 例 中 ， 问 题 询问 的 是 最 后 一 句 中 
的 间接 宾语 一 一 谁 是 那个 从 Jeff 手 里 接收 牛奶 的 人 ,神经 网 络 必须 对 第 五 句 中 所 涉及 的 对 象 做 出 精 
准 区 分 ， 其 中 Bill 是 主语 ，Jeff 是 间接 宾语 ， 而 在 第 六 句 中 ，Jeff 则 是 主语 。 当 然 ， 我 们 的 神经 网 
络 并 没有 收 到 任何 关于 主语 或 宾语 是 什么 的 明确 训练 , 它 必须 从 训练 数据 的 示例 中 推断 出 这 种 合理 
的 理解 。 

系统 必须 解决 的 男 一 个 小 问题 是 理解 在 整个 数据 集中 使 用 的 各 种 同义词 , 如 Jeff 把 牛奶 “ 弟 给 
(handed) " Bill, 但 是 Je 企 也 可 以 同样 容易 地 “给 (gave) ”或 “ 交 给 (passed) ”给 Bill. Pit, 
在 这 点 上 神经 网 络 也 不 必 从 头 开 始 , 因为 它 可 以 从 词 回 量 那里 得 到 一 些 帮助 。 由 于 神经 网 络 中 存在 
大 量 的 词 问 量 , 这 些 词 回 量 可 以 给 出 对 应 词 的 定义 及 其 与 其 他 词 之 间 关 系 的 信息 ,而 相似 词 具 有 相 
似 的 回 量化 表示 ， 这 就 意味 着 神经 网 络 可 以 将 它们 视 为 几乎 相同 的 词 。 对 于 词 回 量化 ,我 们 将 使 用 
Stanford 的 全 局 词 同 量 表示 (GloVe) 。 

许多 任务 都 有 一 个 限制 , 那 就 是 强制 上 下 文 包含 用 于 回答 问题 的 确切 文字 ， 如 在 我 们 的 示例 中 
就 可 以 在 上 下 文 找到 答案 “Bill”。 我 们 可 以 将 这 一 限制 当 作 优 势 ， 因 为 可 以 在 上 下 文中 搜索 与 最 
终结 果 最 接近 的 词 。 


12.4.2 ”分析 GloVe 并 处 理 未知 令 牌 


这 里 我 们 给 出 一 个 sentence2sequence, 它 是 一 个 根据 GloVe 定义 的 映射 并 将 字符 串 转 换 为 矩阵 
的 函数 。 该 函数 将 字符 串 切 分 为 多 个 令 牌 (Token， 这 个 过 程 叫 Tokenization， 即 切 分 词 或 词 条 ) , 
这 些 比 较 小 的 字符 串 相当 于 标点 和 从 号、 单词 或 单词 的 一 部 分 。 例 如, 把 “Bill traveled to the kitchen. " 
切 分 为 6 个 令 牌 前 5 个 令 牌 对 应 于 单词 ， 最 后 一 个 令 牌 对 应 于 表示 句 末 的 “.”。 每 个 令 牌 都 被 
单独 地 回 量 化 ， 从 而 产生 对 应 于 每 个 句子 的 回 量 列 表 ， 如 图 12-17 所 示 。 


Vectorization 


"traveled" 
HH 


"Bill traveled to the kitchen." | mw) E 


"kitchen" 
E " 


图 12-17 ”将 句子 转换 为 多 个 向 量 的 过 程 〈 图 片 来 源 : Steven Hewitt) 
在 bAbI 的 任务 中 ， 系 统 会 过 到 一 些 GloVe 单词 癌 量 化 中 没有 的 单词 ， 为 了 让 神经 网 络 能 够 处 
理 这 些 未 知 的 词 条 ， 我 们 需要 为 这 些 单词 维护 一 个 的 向 量化 状态 。 通 常 的 做 法 是 用 单个 <UNK> 问 
量 奉 换 所 有 未 知 令 牌 , 但 这 不 总 是 有 效 的 。 相反 ,我们 可 以 使 用 随机 化 方法 来 为 每 个 未 知 令 牌 创建 
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一 个 新 的 回 量 。 

当 第 一 次 遇 到 一 个 新 的 未 知 令 牌 时 , 我 们 简单 地 从 原始 GloVe 向 量化 的 分 布 (近似 高 斯 分 布 ) 
中 获取 一 个 新 的 词 向 量 ， 并 将 该 向 量 添加 到 GleVe 词 映 射 上 。 为 了 收集 分 布 超 参数 ， 可 以 使 用 
Numpy 中 的 函数 来 自动 计算 方差 和 平均 值 。 


+ 反 序 列 化 GlovVe I5 
glove wordmap = í(] 
with open(glove vectors file, "r", encoding-"utf8") as glove: 
for line in glove: 
name, vector = tuple(line.split("", 1)) 


glove wordmap[name] = np.fromstring(vector, sep-"") 


wvecs = [] 
for item in glove wordmap.items(): 
wvecs.append(item[1]) 


S — np.vstack (wvecs) 


# 收集 分 布 超 参数 
v = np.var(s,0) 
m = np.mean(s, 0) 


RS = np.random.RandomsState () 


# 而 每 当 我 们 需要 时 ，fi11 unk 会 提供 一 个 新 的 词 向 量 


def fill unk(unk): 
global glove wordmap 
glove wordmap[unk] = RS.multivariate normal (m,np.diag.(v)) 


return glove wordmap[unk] 


12.4.8 已 知 或 未 知 的 数据 部 分 


HSK bAbI 任务 中 的 词汇 量 是 有 限 的 ， 这 就 需要 神经 网 络 学 好 单词 之 间 的 关系 ， 即 使 不 知道 某 
些 单词 的 含义 ,为 了 加 快 学 习 速 度 ， 我 们 也 应 该 尽 可 能 地 选择 具有 内 在 意义 的 癌 量 。 为 此 ， 我们 使 
用 贪 禁 搜索 方法 来 查找 存在 于 斯 坦 福 GLoVe 词 回 量 数据 集中 的 单词 ， 如 果 该 单词 不 存在 ， 则 用 一 
个 未 知 的 、 随 机 创建 的 词 回 量 表示 来 蔡 换 整个 单词 。 

在 这 个 词 回 量 化 模型 下 ， 我 们 可 以 定义 一 个 新 的 sentence2sequence. 


def sentence2sequence (sentence): 


- 将 输入 段落 转换 为 (m, d) BER, P n 是 句子 中 的 词 条 数量 , a 是 每 个 词 向 量 的 维 数 . 


这 里 不 需要 使 用 TensorFlow, 因为 只 是 简单 地 将 句子 转换 为 基于 映射 的 序列 不 需要 TensorFlow 
提供 计算 支持 , 普通 Python 模块 足以 完成 此 任务 。 
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tokens = sentence.strip('"(),-').lower().split ("") 
rows = [] 
words - [] 
# 对 令 牌 执行 贫 禁 搜索 
for token in tokens: 
i = len (token) 
while len (token) > O0: 
word = token[:i] 
if word in glove wordmap: 
rows.append(glove wordmap[word]) 
words.append (word) 


token - token[i:] 


i = len (token) 
continue 
else: 
i = i-l 
if i == 0: 
# OOV 单词 


rows.append(fill unk(token)) 
words.append (token) 
break 


return np.array(rows), words 


现在 我 们 可 以 将 每 个 问题 所 需 的 所 有 数据 打包 在 一 起 ， 包 括 上 和 下文、 问题 和 答案 的 癌 量 。 在 
bAbI 中 , 上 下 文 被 定义 成 了 含有 序列 与 的 句子 , 使 用 反 序 列 化 (contextualize) 函数 来 完成 该 任务 。 
问题 和 答案 在 同一 行 ， 用 制 表 符 分 隔 开 ， 所 以 我 们 可 以 利用 制 表 符 来 标记 某 一 行 是 否 指 问 了 问题 。 
当 编 号 重 置 时 ， 未 来 的 问题 将 引用 新 的 上 下 文 (注意 ， 通 常 一 个 上 下 文 对 应 多 个 问题 )。 和 答案 还 包 
含 我 们 已 保留 但 不 需要 使 用 的 另 一 条 信息 : 参考 顺序 , 与 回答 问题 所 需 的 句子 相对 应 的 数字 。 在 我 
们 的 系统 中 ， 神 经 网 络 将 自学 需要 哪些 句子 来 回答 问题 。 


def contextualize(set file): 


读 入 问题 数据 集 并 构建 问题 + 答案 - > 上 下 文集 。 
输出 是 一 个 数据 点 列表 ， 每 个 数据 点 都 是 一 个 包含 以 下 内 容 的 7 元 素 元 组 : 
上 下 文中 的 句子 以 向 量化 形式 出 现 
上 下 文中 作为 字符 串 词 条 列表 的 句子 
癌 量化 形式 的 问题 
作为 字符 串 词 条 列表 的 问题 
问 量 化 形式 的 答案 
作为 字符 串 词 条 列表 的 答案 
用 于 支持 当前 未 使 用 的 语句 的 数字 列表 
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data = [] 
context - [] 
with open(set file, "r", encoding-"utf8") as train: 
for line in train: 
l, ine - tuple(line.split("", 1)) 
# 将 行 号 从 所 指向 的 句子 中 分 离 出 来 
21$ 3 1g "I"? 
# 因为 新 的 上 下 文 总 是 从 1 开始 ， 所 以 这 是 一 个 重 置 上 下 文 的 信号 
context = [] 
if "Nt" in ine: 
# 制 表 符 是 问题 和 答案 之 间 的 分 隔 符 ， 在 上 下 文 语句 中 不 存在 
question, answer, support = tuple(ine.split("Nt")) 
data.append ( (tuple (zip(*context))- 
sentence2sequence (question)- 
sentence2sequence (answer)- 
([int(s) for s in support.split()1,))) 
# 多 个 问题 可 能 涉及 相同 的 上 下 文 ， 所 以 我 们 不 重 置 它 
else: 


# 上 下 文句 子 


context.append(sentence2sequence (ine[:-1])) 
return data 
train data 三 contextualize(train set post file) 


test data - contextualize(test set post file) 


124.4 定义 超 参 数 


此 时 , 我 们 已 经 充分 准备 好 了 训练 数据 和 测试 数据 ， 下 一 个 任务 是 构建 用 于 理解 数据 的 神经 网 
络 。 我 们 先 从 清除 TensorFlow 默认 计算 图 开始 ， 如 果 想 更 改 一 些 东 西 ， 就 可 以 选择 再 次 运行 神经 


tf.reset default graphl() 


由 于 这 是 实际 神经 网 络 的 开始 ， 因 此 还 要 定义 网 络 押 需 的 所 有 第 量 ， 称 为 “ 超 参数 ”， 它 们 定 
义 了 网 络 的 “外 观 〈 结 构 ) ”和 训练 方式 。 


# 用 于 存储 在 网 络 中 循环 层 之 间 传 递 的 数据 的 维 数 


recurrent cell size - 128 


* 词 癌 量 中 的 维 数 
D = 50 


# 神经 网 络 学 习 的 速率 。 若 速率 过 高 的 话 ， 则 可 能 会 遇 到 数值 不 稳定 或 其 他 问题 
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learning rate = 0.005 
4 dropout 概率 
input p, output p = 0.5, 0.5 


# 一 次 训练 问题 的 个 数 


batch size = 128 


# 情景 记忆 的 传递 次 数 


passes = 4 


# 前 馈 层 大 小 : 用 于 存储 从 前 馈 层 传递 的 数据 的 维 数 
ff hidden size = 256 


# 奖励 情景 记忆 的 稀疏 性 ， 但 会 使 训练 变 慢 ， 不 要 让 它 大 于 learning rate 
weight decay = 0.00000001 


# 每 次 训练 时 神经 网 络 训练 问题 的 个 数 ， 有 些 问 题 会 被 多 次 计算 


training iterations count - 400000 


# 在 每 次 验证 之 前 需要 进行 训练 的 迭代 次 数 
display step = 100 


12.4.5 ”神经 网 络 结构 部 分 


神经 网 络 结构 被 松散 地 划分 为 4 个 模块 ， 在 2015 年 Ankit Kumar 等 人 撰写 的 文章 《4sk Me 
Anything: Dynamic Memory Networks for Natural Language Processing》 中 给 出 了 相应 的 说 明 。 

由 于 神经 网 络 设计 了 一 个 循环 层 , 其 能 够 基于 文本 里 的 其 他 信息 被 动态 地 定义 , 因此 被 称 为 动 
态 记 忆 网 络 (DMN) . DMN 是 基于 对 人 类 如 何 回 答 阅 读 理解 型 问题 的 理解 。 首 先 ， 人 类 会 阅读 上 
下 文 并 在 其 中 建立 对 相关 事实 的 记忆 , 记 住 这 些 事 实 后 再 去 阅读 问题 并 重新 检查 上 下 文 , 特别 是 寻 
找 与 问题 相关 的 一 些 答案 的 信息 ， 并 将 问题 与 每 个 事实 进行 比 对 。 

有 时 一 个 事实 会 引导 我 们 走向 另 一 个 事实 ,在 bAbI 数据 集中 ,神经 网 络 希 望 找 到 足球 的 位 置 ， 
它 会 先 搜索 关于 足球 的 句子 ， 并 发 现 John 是 最 后 一 个 接触 足球 的 人 。 然 后 搜索 关于 John 的 句子 ， 
RI John 曾经 在 卧室 和 走廊 里 待 过 。 它 一 旦 意识 到 John 在 走 亡 上 是 最 后 一 个 人 ,就 可 以 回答 这 个 
问题 并 自信 地 说 足球 在 走廊 上 ， 如 图 12-18 所 示 。 

在 每 一 集 或 片段 中 ， 神 经 网 络 都 会 关注 新 的 事实 ， 以 便 能 够 找 出 正确 答案 。Kumar 注意 到 神 
经 网 络 错误 地 将 一 些 权 重 值 放 在 了 第 2 句 中 ， 这 是 有 原因 的 ， 因 为 John 己 经 在 那里 了 ， 尽 管 当时 
他 没有 足球 (Ankit Kumar 等 ，2015) 。 
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Episodic Memory 。， 1 j i i ; à Answer module 
Module 3 l s g s , : 2 


12-18 神经 网 络 内 部 4 个 模块 被 组 合 在 一 起 工作 以 回答 bAbI 数据 集中 的 问题 


12.4.6 ”输入 部 分 


输入 模块 是 动态 记忆 网 络 4 个 模块 中 第 一 个 给 出 答案 的 , 它 包含 一 个 简单 的 输入 , TBI] 
控 循 环 单元 或 GRU (TensorFlow 的 tf.contrib.nn.GRUCell) 的 输入 管道 并 以 此 来 收集 相关 证 据 。 每 
一 个 片段 的 证 据 或 事实 ,在 上 下 文中 都 对 应 一 个 句子 ,并 且 由 该 时 间 步 长 的 输出 表示 ， 这 需要 一 些 
非 TensorFlow 的 预 处 理 。 因 此 ， 我 们 可 以 收集 句子 末尾 的 位 置 并 将 其 传递 给 TensorFlow， 以 便 在 
后 面 的 模块 中 使 用 。 

我 们 可 以 利用 TensorFlow 中 的 gather nd0 函 数 对 这 些 数据 进行 处 理 ， 并 使 用 这 些 被 处 理 过 的 
数据 来 选择 相应 的 输出 〈gather nd0 函 数 是 一 个 非常 有 用 的 工具 ) 。 


+ cs: 从 上 下 文 收集 的 事实 


cs — tf.gather nd(input module outputs, input sentence endings) 


12.4.7 ”问题 部 分 


问题 模块 是 第 二 个 模块 ， 也 可 以 说 是 最 简单 的 模块 。 它 包括 另 一 个 GRU 的 管道 。 这 次 是 在 处 
理 问题 的 文本 上 而 不 是 寻找 一 些 证 据 , 我 们 可 以 简单 地 进 到 结尾 状态 , 因为 数据 集 保证 问题 的 长 度 
是 一 个 句子 。 


12.4.8 情景 记忆 部 分 


第 三 个 模块 是 情景 记忆 模块 ， 就 是 事情 开始 变 得 有 意义 的 地 方 。 它 使 用 注意 力 执 行 多 个 过 程 ， 
每 个 过 程 都 包含 多 个 GRU 并 对 输入 进行 进 代 。 每 个 过 程 中 的 友 代 都 是 基于 当时 对 相应 事实 的 关注 
程度 并 对 当前 记忆 的 权重 进行 更 新 。 
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12.4.9 注意 力 部 分 


神经 网 络 中 的 注意 力 最 初 是 为 了 进行 图 像 分 析 而 设计 的 ,特别 是 对 于 图 像 的 某 些 部 分 信息 远 比 
其 他 部 分 的 信息 与 分 析 主 题 更 具 相 关 性 的 情况 。 在 执行 任务 的 过 程 中 , 神经 网 络 使 用 注意 力 能 够 在 
深入 分 析 时 确定 所 需 对 象 的 最 佳 位 置 , 如 查找 图 像 中 目标 对 象 的 位 置 、 跟 踊 在 图 像 之 间 移 动 的 对 象 、 
面部 识别 或 其 他 需要 在 图 像 中 寻找 最 相关 信息 的 任务 。 

这 里 的 主要 问题 是 注意 力 或 至 少 硬性 注意 力 (Hard Attention， 只 关注 一 个 输入 位 置 ) 很 难 被 
优化 。 与 大 多 数 神经 网 络 一 样 , 我 们 的 优化 方案 是 计算 损失 函数 相对 于 输入 和 权重 的 导数 ， 由 于 其 
二 进 制 的 性 质 ， 硬 性 注意 力 根 本 不 可 微分 。 因 此 ， 我 们 不 得 不 使 用 基于 实数 的 变 体 ， 被 称 为 软 性 注 
意 力 (Soft Attention) ， 它 对 所 有 输入 的 位 置 使 用 茶 种 形式 的 权重 来 表明 相应 的 注意 程度 。 而 且 ， 
这 里 涉及 的 权重 是 完全 可 微分 的 ,可 以 被 正常 训练 。 虽 然 学 习 硬 性 注意 力也 是 可 以 的 , 但 它 比 软 性 
注意 力 更 难以 实现 且 有 时 表现 更 差 , 因此 这 里 我 们 使 用 软 性 注意 力 .不 用 担心 对 导数 函数 进行 编码 ， 
TensorFlow 的 优化 方案 已 经 为 我 们 做 了 相关 处 理 。 

在 这 个 模型 中 ,我 们 通过 构造 每 个 事实 、 当 前 记忆 和 原始 问题 之 间 的 相似 性 度量 来 计算 注意 
注意 , 这 里 的 计算 方法 与 普通 注意 力 的 计算 方法 是 不 同 的 , 普通 注意 力 只 构造 事实 与 当前 记忆 之 间 
的 相似 性 度量 。 我 们 将 结果 推送 进 一 个 两 层 的 前 馈 神经 网 络 来 获得 每 个 事实 的 注意 力 常 数 , 然后 对 
输入 的 事实 使 用 一 个 GRU 来 赋予 权重 (通过 相应 的 注意 力 常数 赋予 权重 ), 进而 修改 当前 的 记忆 。 
为 了 避免 在 上 下 文 短 于 矩阵 的 全 长 时 间 记 忆 中 添加 错误 的 信息 , 我 们 创建 了 一 个 掩 码 层 ， 当 事实 不 
存在 的 情况 下 ， 模 型 不 必 在意 它 〈 即 保留 相同 的 记忆 ) 。 

男 一 个 值得 注意 的 方面 是 ,注意 力 掩 码 层 几 乎 总 是 围绕 着 神经 网 络 的 一 个 层 对 表示 层 进行 封包 。 
对 于 图 像 而 言 ， 该 封包 最 有 可 能 发 生 在 卷 积 层 上 (最 有 可 能 是 直接 映射 到 图 像 的 位 置 ) 。 而 对 于 日 
然 语 言 来 说 ,该 封包 最 有 可 能 发 生 在 循环 层 上 。 虽然 将 注意 力 集中 在 一 个 前 馈 层 上 , 在 技术 上 是 可 
行 的 ， 但 是 通常 没有 什么 用 处 一 一 至 少 在 那些 后 续 的 前 馈 神经 网 络 层 上 难以 模拟 这 种 方式 。 


def attention(c, mem, existing facts): 
自 定义 注意 力 机 制 


c: 张 量 [batch size, maximum sentence count, recurrent cell size] 包 含 上 下 文中 的 


所 有 事实 


mem: 包含 当前 记忆 的 张 量 [batch size, maximum sentence count, recurrent cell size]. 


为 了 得 到 准确 的 结果 ， 对 所 有 事实 都 应 该 有 相同 的 记忆 
existing facts: 张 量 [batch size, maximum sentence count，1]， 就 是 我 们 上 面 提 到 的 


(二 元 ) 17 


with tf.variable scope("attending") as scope: 


# attending: 度量 我 们 决定 去 关注 什么 
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attending = tf.concat([c, mem, re qr c * req, c * mem, (c-re q)**2, 


(c-mem) **2], 2) 


* ml: 前 馈 网 络 的 第 一 层 权 重 乘法 
# 我 们 平 铺 权 重 值 以 便 手 动 传递 ， 因 为 tf.matmul 从 TensorFlow 1.2 开始 就 不 会 自动 传 
递 批量 矩阵 乘法 
ml — tf.matmul(attending * existing facts, 
tf.tile(w 1, tf.stack([tf.shape(attending) [0],1,1]))) = 


existing facts 


* bias 1: 第 一 个 前 馈 层 的 掩 码 变 体 仅 对 现 有 事实 产生 偏差 
bias 1 = b 1 * existing facts 


# tnhan: 第 一 非 线 性 。 选 择 relu 而 不 是 tann 等 类 似 的 非 线性 ， 是 为 了 避免 当 tanh 之 类 
返回 值 接近 1 或 -1 时 出 现 低 梯 度量 级 的 问题 


tnhan = tf.nn.relu(ml + bias 1) 


# m2 :前 馈 网 络 的 第 二 层 乘法 权重 值 


m2 = tf.matmul(tnhan, tf.tile(w 2, tf.stack([tf.shape(attending) [0], 
1,11))) 


# bias 2: 第 二 个 前 馈 层 偏差 的 掩 码 变 体 


bias 2 — b 2 * existing facts 


* norm m2: 第 二 层 权 重 值 的 标准 化 版 本 ， 用 于 确保 softmax 非 线 性 不 饱和 


norm m2 — tf.nn.12 normalize(m2 + bias 2, -1) 


# softmaxable: 在 原本 密集 的 张 量 上 使 用 sparse softmax 的 技巧 。 我 们 让 norm m2 
成 为 稀疏 张 量 ， 使 其 在 操作 之 后 再 次 致密 

softmax idx = tf.where(tf.not equal (norm m2, 0))[:,:-1] 

softmax gather — tf.gather nd(norm m2[...,0], softmax idx) 

softmax shape = tf.shape(norm m2, out type-tf.int64)[:-1] 

softmaxable = tf.SparseTensor(softmax idx, softmax gather, 
softmax shape) 

rerurn 


tf.expand dims(tf.sparse tensor to dense(tf.sparse softmax(softmaxable)),-1) 


12.4.10 答案 模块 


最 后 一 个 模块 是 答案 模块 ， 它 使 用 完全 连接 层 对 问题 和 情景 记忆 模块 的 输出 进行 回归 并 获得 
“最 终结 果 ” 的 词 同 量 , 而 与 该 结果 距离 最 近 的 上 下 文中 的 词 便 是 我 们 的 最 终 输 出 (确保 结果 是 一 
个 真实 中 的 词 )。 我 们 通过 为 每 个 词 创建 一 个 “分 数 ” 来 计算 最 接近 的 词 ， 该 分 数 表示 最 终结 果 与 
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当前 词 的 距离 。 虽 然 可 以 设计 一 个 返回 多 个 词 的 答案 模块 ， 但 是 对 于 我 们 要 解决 的 bAbI 任务 来 说 
是 没有 必要 的 。 


12.4.11 模型 优化 


梯度 下 降 是 神经 网 络 模型 的 默认 优化 器 ， 其 目标 是 减少 神经 网 络 的 “损失 ”， 这 是 衡量 网 络 性 
能 有 多 差 的 一 个 指标 。 它 通过 找到 在 当前 输入 下 损失 相对 于 每 个 权重 值 的 导数 ， 然 后 通过 “降低 ” 
权重 值 来 减少 损失 。 大 多 数 时 候 ， 这 种 方法 效果 很 好 的 , 但 却 不 是 最 理想 的 方法 。 目 前 有 许多 不 同 
的 模型 优化 方法 ， 如 使 用 “动量 ”或 其 他 更 直接 路 径 的 近似 的 方法 来 最 优化 权重 ， 而 这 些 优 化 方法 
中 最 有 用 的 一 种 被 称 为 自 适 应 息 估 计 (Adaptive Moment Estimation; Adam) 。 

Adam 方法 集成 了 AdaGrad 和 RMSProp 算法 的 优点 ， 通 过 计算 梯度 的 一 阶 写 估计 和 二 阶 窍 佑 
计 来 为 各 种 不 同 的 参数 创建 独立 的 自 适 应 性 学 习 率 。 进 一 步 讲 ，Adam 方法 计算 了 梯度 的 指数 移动 
均值 ， 使 用 两 个 超 参 数 (betal 和 beta2 ) 控制 着 这 些 移动 均值 的 衰减 速度 。 而 移动 均值 的 初始 化 值 
和 betal 、beta2 两 参数 值 接近 于 1 Hf, hi AmE RF 0。 夺 移动 均值 初始 化 为 者 (有些 
参考 资料 这 里 给 出 的 初始 化 值 为 1， 笔 者 认为 不 准确 ) 和 两 个 超 参 数 (betal 、beta2 ) 值 接 近 于 1 
时 ， 就 会 引起 同和 矩 估计 的 偏差 接近 于 零 。 

为 了 抵消 这 种 偏差 .Adam 计算 偏差 校正 的 矩 离 估计 ， 其 值 一 般 情况 下 会 大 于 原始 值 ， 然 后 使 
用 校正 的 估计 值 来 更 新 整个 神经 网 络 的 权重 值 。 这些 估 计 的 组 合 使 得 Adam 成 为 整体 优化 的 最 佳 选 
择 之 一 ,尤其 是 对 于 复杂 神经 网 络 优化 而 言 。 这 对 于 非常 稀疏 的 数据 〈 比 如 在 目 然 语言 处 理 任 务 中 
种 见 的 数据 ) 尤其 适用 。 

在 TensorFlow 中 ， 我 们 可 以 通过 创建 tftrain.AdamOptimizer 来 使 用 Adam. 


optimizer = tf.train.AdamOptimizer(learning rate) 
# 我 们 一 旦 有 了 一 个 优化 器 ， 我 们 就 要 求 它 将 模型 的 损失 降 到 最 低 ， 以 便 进行 适当 的 训练 


opt op = optimizer.minimize(total loss) 


12.4.12 ”训练 模型 并 分 析 预 测 


一 切 准 备 就 绪 后 ,我 们 就 可 以 开始 批 处 理 训练 数据 以 训练 我 们 的 神经 网 络 。 在 进行 训练 过 程 中 ， 
我 们 应 该 持续 监测 神经 网 络 在 准确 性 指标 方面 做 得 如 何 。 我 们 从 测试 数据 里 取出 一 部 分 作为 验证 数 
据 集 ， 这 样 它们 和 训练 数据 就 不 存在 重 登 问题 了 。 

使 用 基于 测试 数据 的 验证 集 , 可 以 更 好 地 了 解 神经 网 络 的 泛 化 能 力 , 即 从 训练 数据 里 学 习 到 的 
东西 能 否 应 用 于 其 他 未 知 的 上 下 文中 。 如 果 在 训练 数据 集中 的 部 分 数据 上 进行 验证 , 那么 神经 网 络 
可 能 会 出 现 过 拟 合 现象 。 换 句 话说 ,学 习 到 了 特定 的 示例 并 记 住 它们 的 答案 ,将 无 益 于 神经 网 络 回 
答 新 问题 。 

经 过 一 些 训练 之 后 ， 让 我 们 来 看 看 从 神经 网 络 中 得 到 了 什么 样 的 答案 。 在 图 12-19 中 (笔者 这 
里 只 给 出 三 个 问题 的 图 像 ， 其余 两 个 问题 的 图 像 读 者 可 以 在 代码 文件 中 查看 ) ,我 们 可 以 将 注意 力 
可 视 化 到 上 下 文中 所 有 句子 〈 列 ) 和 每 个 情景 ( 行 ) 上 ; 较 深 的 颜色 表示 模型 对 该 情景 中 那个 句子 
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有 更 多 关注 。 
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12-19 ”模型 输出 的 部 分 答案 示意 图 
对 于 每 个 问题 , 应 该 看 到 注意 力 在 至 少 两 个 情景 里 发 生 过 变化 , 但 有 时 注意 力 可 以 在 一 个 情景 
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内 找到 答案 ， 有 时 需要 全 部 4 个 情景 才 有 可 能 找到 答案 。 如 果 注 意 力 看 起 来 是 空白 的 ,那么 它 可 能 
是 饱和 的 , 应 该 注意 到 了 所 有 的 事项 。 在 这 种 情况 下 , 可 以 尝试 一 个 更 高 的 weight decay 来 训练 ， 
以 减少 甚至 阻止 这 种 情况 的 发 生 。 在 训练 后 期 ， 饱 和 变 得 非常 普遍 。 

为 了 了 解 上 述 问题 的 答案 ,我们 可 以 使 用 上 下 文中 距离 分 数 的 位 置 作为 索引 并 查看 该 索引 处 的 
词 。 

为 了 得 到 更 好 的 结果 ， 我 们 可 能 需要 长 时 间 的 训练 〈 一 般 情 况 下 需要 12 小 时 左右 ) ， 最 终 应 
该 能 够 达到 非常 高 的 精度 (超过 90%) 。 对 Jupyter Notebook 有 经 验 的 用 户 应 该 知道 ， 在 任何 时 候 
只 要 保持 相同 的 世 Session， 都 可 以 中 断 训 练 ， 并 且 仍 然 可 以 保存 网 络 训练 的 进展 。 如 果 和 希望 可 视 
化 注意 力 和 当前 网 络 给 出 的 答案 ， 这 种 方式 很 有 用 。 

一 旦 查看 完 模 型 返回 的 内 容 ， 就 可 以 关闭 会 话 以 释放 系统 资源 。 


12.5 总 结 


本 章 简 单 介 绍 了 基于 深度 学 习 的 问答 方法 , 特别 是 对 知识 库 和 机 器 理解 的 问答 。 使 用 深度 学 习 
的 优点 是 其 可 以 将 所 有 文本 跨度 (包括 文档 、 问 题 和 潜在 答案 ) 转换 为 问 量 ( 即 通 入 处 理 ) 。 因 此 ， 
所 有 文本 都 可 以 在 统一 的 语义 空间 中 处 理 , 进而 基于 符号 表示 的 传统 QA 方法 中 存在 的 语义 鸿沟 问 
题 可 以 在 一 定 程度 上 得 到 缓解 ， 并 且 这 种 方法 使 得 QA 系统 可 以 以 端 到 端的 方式 构建 。 所 以 ， 现 有 
复杂 的 基于 管道 的 QA 过 程 可 以 用 更 直接 或 更 简单 的 方式 代替 ， 预 计 结 果 会 有 所 改善 。 

基于 深度 学 习 的 QA 模型 也 存在 许多 挑战 。 例 如 ， 现 有 的 神经 网 络 (如 RNN 和 CNN) 仍然 不 
能 精确 地 捕获 给 定 问题 的 语义 含义 。 特别 是 对 于 文档 , 文档 中 的 主题 或 逻辑 结构 不 能 通过 神经 网 络 
轻松 建 模 ， 而 且 在 知识 库 中 嵌入 项 目 没有 有 效 的 方法 。 此 外 ，QA 中 的 推理 过 程 很 难 通过 向量 之 间 
的 简单 数值 运算 来 建 模 。 这 些 问题 是 质量 保证 任务 面临 的 主要 挑战 ， 未 来 应 引起 更 多 关注 。 


